[mira_talk] Re: Same singlets,

  • From: Bastien Chevreux <bach@xxxxxxxxxxxx>
  • To: mira_talk@xxxxxxxxxxxxx
  • Date: Sat, 3 Sep 2016 22:59:34 -0400

On 02 Sep 2016, at 9:13 , wakamoto5959@xxxxxxxxxxx wrote:

Thank you very much for your suggestion. 
Actually, what I am trying to do is quantification of all reads used for each 
contig (the information I retrieve from "info_contigstats.txt" file) without 
normalization, all the way to singlets (for my study, it is ok if the 
singlets are junk, but still need to count those).

Would you give me suggestion to achieve this goal?  

3 things:
- when using normalisation, MIRA does not completely lose the coverage 
information. Specifically, in the contigstats file, while the number of reads 
columns indeed gives the true number of reads, the average coverage column 
gives an approximation of what the coverage would be for non-normalised data. 
Which can lead to some “funny” situations where, e.g., there are 10 reads in a 
contig, but the average coverage is reported to be 100x. Note that this 
approximation can, sometimes, be quite wrong.
- if you do not want approximate numbers but “true” numbers, assemble de-novo 
with normalisation, then do a mapping with all reads against the assembly.
- you do not want singlets in your normal output with Illumina data. You 
*really* don’t. If your goal is to count them … have you looked at the debris 
file?

B.


--
You have received this mail because you are subscribed to the mira_talk mailing 
list. For information on how to subscribe or unsubscribe, please visit 
http://www.chevreux.org/mira_mailinglists.html

Other related posts: