[mira_talk] Re: NO_OVERLAP in debris list

  • From: "Peter Cock" <dmarc-noreply@xxxxxxxxxxxxx> (Redacted sender "p.j.a.cock" for DMARC)
  • To: "mira_talk@xxxxxxxxxxxxx" <mira_talk@xxxxxxxxxxxxx>
  • Date: Wed, 27 Jul 2016 09:55:30 +0100

On Tue, Jul 26, 2016 at 9:27 PM, Bastien Chevreux <bach@xxxxxxxxxxxx> wrote:


One last thing: I see you are on a virus project. The projects I’ve
seen so far always had insane coverages (>>1000, often >10000,
sometimes >100000). At those coverages, the Illumina sequencing
error rate (let’s say roughly 1%) guarantees that MIRA will think
those “differences” are real and will build an utterly fragmented
assembly.

B.

I can beat that with a virus project with million read depth coverage,
which from memory I had to subsample to 0.1% or 0.01% to get
MIRA to assemble (e.g. taking every 10000th read). The goal was
to get the coverage into the range MIRA is happy with, but can
take a few iterations to find the sweet spot.

To do this I wrote this a Galaxy tool (a Python script usable directly
at the command line). It does reproducible sampling uniformly
though the file (to avoid any order effects as the read order will
normally reflect the physical slide, often the first and last reads
for Illumina are worse than the ones in the middle of the file):

https://github.com/peterjc/pico_galaxy/tree/master/tools/sample_seqs

Once assembled, I could map all the reads to the new reference
(not with MIRA), and measure the original coverage - but massive
coverage is a problem for many visualisations etc.

Peter

--
You have received this mail because you are subscribed to the mira_talk mailing 
list. For information on how to subscribe or unsubscribe, please visit 
http://www.chevreux.org/mira_mailinglists.html

Other related posts: