[mira_talk] Re: MAF to SAM

  • From: Chris Hoefler <hoeflerb@xxxxxxxxx>
  • To: "mira_talk@xxxxxxxxxxxxx" <mira_talk@xxxxxxxxxxxxx>
  • Date: Tue, 12 Apr 2016 11:13:04 -0500

AFAIK, convert_project was the name of the binary from Mira v3 which was
subsequently renamed to miraconvert in the v4.X series. So if you are using
convert_project, you are using a very old version of Mira and I would
recommend upgrading if possible. There are a lot of bug fixes and algorithm
improvements in the new series. FWIW, I have used the MAF->SAM conversion
in the new miraconvert without errors, so I imagine it will probably work
for you too unless there is something really bizarre about your assembly.

On Tue, Apr 12, 2016 at 10:57 AM, Peter Cock <dmarc-noreply@xxxxxxxxxxxxx>
wrote:

On Tue, Apr 12, 2016 at 4:12 PM, - - <directioninformatique@xxxxxxxx>
wrote:
I just integrated your scripts in our pipeline, it works very well,
someone
in our team will look today if this change has consequences on our final
results...

The cigar string for the read is completely different, i join the SAM
file
which is four times smaller than the SAM produced by convert_project !?

Thanks again

I would not recommend using maf2sam.py in a production pipeline!

I regard maf2sam.py as a useful experiment during the development of
MIRA's native SAM output, and in the development of the SAM/BAM file
format itself, see http://biorxiv.org/content/early/2015/05/29/020024

I would encourage you to see what Bastien can find out about what
is happening within MIRA.

Regarding the difference in file size: The SAM/BAM file from maf2sam.py
and from MIRA's convert_project will put very different amounts of
annotation in their output, so they will be different.

If you don't use this annotation, you could probably remove most of it
to save disk space, e.g. using a faster and more tested tool to do
something like this slow script of mine:

https://github.com/peterjc/picobio/blob/master/sambam/sam_strip_tags.py

Also check if the backbone reads are present or not, they can break
on conversion to BAM due to a limit on the number of CIGAR operations
allowed on one read. This is why MIRA has "samnbb" as an output mode
(SAM with no back-bone reads). See:

https://github.com/samtools/hts-specs/issues/40

Regards,

Peter

--
You have received this mail because you are subscribed to the mira_talk
mailing list. For information on how to subscribe or unsubscribe, please
visit http://www.chevreux.org/mira_mailinglists.html




-- 
Chris Hoefler, PhD
Postdoctoral Research Associate
Straight Lab
Texas A&M University
2128 TAMU
College Station, TX 77843-2128

Other related posts: