Почему fastx_trimmer считает, что мой файл fastq имеет неизвестный формат?

У меня есть несколько файлов .fastq из Illumina NextSeq. Многие из последовательностей имеют поли-А тракты, которые усложняют их картирование. Я хочу удалить все последовательности из десяти последовательных букв A и пытаюсь сделать это с помощью fastx_clipper следующим образом:

ha1c6n8$ fastx_clipper -l 32 -Q33 -n -v -a AAAAAAAAAA –i FR0826_S1_L004_R1_001.fastq –o FR0826_L004_trimmed.fastq

Это привело к следующему сообщению об ошибке:

fastx_clipper: input file (-) has unknown file format (not FASTA or FASTQ), first character = (10)

Я не совсем уверен, что это значит. Я просмотрел файл fastq с помощью головы:

ha5c6n8$ head FR0826_S1_L004_R1_001.fastq

@NS500289:18:H1237BGXX:4:11401:2791:1023 1:N:0:1
NCTACATTGGTTCCTCAGCCAAGCACATACACCAAATGTCTGAACCTGCGGTACCTCTCGTACTGAGCAGGATT
+
#<<AAFAFFFAFFFFF7FF)FF.F<FAFFFFF<FF.AFFF7F.F.FFAFFFF)7AF7F<FFF<<F7FFFFFF7F
@NS500289:18:H1237BGXX:4:11401:19266:1023 1:N:0:1
NAATGGGTCTGCGAGAGCGCCAGCTATCCTGAGGGAAACTTCGGAGGGGGCCGGCTACTAGATGGTTCGCTTAGT
+
#<7AAFAFFFFFFFF7FFAA.AFF<F...<AFFFF7F..FA.A<AA<F7)FA7.FF.<FA..F.A7AF..FFF.A
@NS500289:18:H1237BGXX:4:11401:6297:1023 1:N:0:1
NATAAGAGGGGTGTGGCTAGGCTAAGCGTTTTGAGCTGCATTGCTGCGTGCTTGATGCTTGTCCCTTTTGATCGT

Насколько я могу судить, это выглядит как совершенно обычный файл в формате fastq. Может ли кто-нибудь объяснить, что вызывает эту ошибку? Спасибо!


person Forest    schedule 29.08.2014    source источник
comment
На мой взгляд, этот вопрос не очень подходит для stackoverflow. На вашем месте я бы начал отладку, проверив ваши файлы fastq с помощью валидатора fastq и посмотрев, есть ли предупреждения и ошибки. Ваш файл может, например. быть усеченным, мы не можем видеть это с первых нескольких строк.   -  person cel    schedule 29.08.2014


Ответы (1)


Ваш файл fastq начинается с новой строки (значение ASCII 10), что недопустимо. Удалите первую строку, и все должно быть в порядке.

person dkatzel    schedule 29.08.2014