[mira_talk] Re: Question about SRA PE data to assemble

  • From: "Peter Cock" <dmarc-noreply@xxxxxxxxxxxxx> (Redacted sender "p.j.a.cock" for DMARC)
  • To: "mira_talk@xxxxxxxxxxxxx" <mira_talk@xxxxxxxxxxxxx>
  • Date: Thu, 11 Aug 2016 10:57:19 +0100

The SRA downloads are horrible with mangled read names,
and the tool fastq-dump is troublesome.

I would use the ENA instead,

https://www.ebi.ac.uk/ena/data/view/SRR2960108

They at least provide a plain FASTQ file:

ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR296/008/SRR2960108/SRR2960108.fastq.gz

I'm not sure if MIRA will understand this as is, but at least
you can see the /1 and /2 suffices suggesting yes this is
interleaved:

$ grep "^@SRR"  SRR2960108.fastq | head
@SRR2960108.1 1/1
@SRR2960108.2 2/2
@SRR2960108.3 3/1
@SRR2960108.4 4/2
@SRR2960108.5 5/1
@SRR2960108.6 6/2
@SRR2960108.7 7/1
@SRR2960108.8 8/2
@SRR2960108.9 9/1
@SRR2960108.10 10/2

You may need to rename the reads to make MIRA happy
(I can't remember if Bastien added code to cope with the SRR
extra names).

Peter


On Thu, Aug 11, 2016 at 10:31 AM, Benben5775 Niu
<yoyostudents5775@xxxxxxxxx> wrote:

Hi,

I have downloaded an Illumina Pair-end data set from SRA and used
fastq-dump from SRA tool-kit to generate the fastq file for that
But I got only one fastq file,as the submitter mentioned that it will
be an interleaved file... but all of reads in it are only from one of
the end,and the name of reads is like this:

@SRR2960108.1 1 length=300
@SRR2960108.2 2 length=301
@SRR2960108.3 3 length=301

...

any one has any experiences with this?

Thanks for any help.

Best,
Sue

-- 
You have received this mail because you are subscribed to the mira_talk mailing 
list. For information on how to subscribe or unsubscribe, please visit 
http://www.chevreux.org/mira_mailinglists.html

Other related posts: