Ошибка Plink при преобразовании в двоичный файл: в строке 1 файла .ped меньше токенов, чем ожидалось

Могу ли я получить некоторую помощь здесь? Кто-нибудь сталкивался со следующей ошибкой в ​​​​plink (набор инструментов для анализа ассоциаций всего генома) при преобразовании из формата «ped», «map» в двоичный аналог «bed», «bim», «fam»? Я использую Linux и plink v1.90b3j.

Error: Line 1 of .ped file has fewer tokens than expected.

Я использую эту команду в скрипте Python, чтобы запустить ее для десятков файлов:

plink --file S205 --out S205 --make-bed

Только для 2 файлов из 32 в этом случае я получаю эту ошибку. Файл точно такой же, как и все остальные, поскольку все они также были сделаны ранее с помощью одного и того же скрипта. Семейный, отцовский, материнский идентификаторы и пол одинаковы для всех образцов, и, как я уже сказал, аллельная информация записывается точно так же, как и все остальные 30 рабочих файлов.

Я заметил, что ошибка меняется на следующую, когда я меняю кодировку окончания строки на «Windows». Другие хорошие файлы работают с любым типом окончания строки (Unix, Win, Mac).

Error: Line 4009 of .bim file has fewer tokens than expected.

В качестве примера оставляю здесь первый и последний X столбцов рабочего *.ped (S209) и нерабочего (S204).

S209 S209 0 0 1 1 C C C C T T T T ... G G G G G G 

S204 S204 0 0 1 1 T T T T G G G G ... G G G G C C 

Спасибо! Даниэль


person Daniel Fernandes    schedule 06.07.2015    source источник
comment
Я узнал проблему. В моем файле «ped» не было точно такого же количества генотипов, как в файле «map», из-за низкого качества базы. Мой скрипт пропускал эти SNP и ничего не выводил в «педикюр». Поскольку файл «карты» был создан на основе позиций файла пайлапа GATK, возникло несоответствие, так как все позиции переносятся в файл «карты». Хотя может быть полезно оставить это здесь, но его можно пометить как решенное.   -  person Daniel Fernandes    schedule 06.07.2015
comment
Опубликуйте это как ответ.   -  person Shree    schedule 30.05.2018


Ответы (1)


Я узнал проблему. В моем файле «ped» не было точно такого же количества генотипов, как в файле «map», из-за низкого качества базы. Мой скрипт пропускал эти SNP и ничего не выводил в «педикюр». Поскольку файл «карты» был создан на основе позиций файла пайлапа GATK, возникло несоответствие, так как все позиции переносятся в файл «карты». Хотя может быть полезно оставить это здесь, но его можно пометить как решенное.

person Daniel Fernandes    schedule 12.04.2019