У меня есть заархивированный файл vcf размером ~ 300 ГБ (.vcf.gz), который содержит геномы около 700 собак. Меня интересуют только некоторые из этих собак, и в настоящее время у меня нет достаточно места, чтобы разархивировать весь файл, хотя я нахожусь в процессе получения компьютера для этого. Можно ли распаковать только части файла, чтобы начать тестирование моих скриптов?
Я пытаюсь определить конкретный SNP в позиции подмножества образцов. Я пытался использовать bcftools безрезультатно: (Если кто-нибудь может определить, что с этим пошло не так, я также был бы очень признателен. Я создал пустой файл для вывода (722g.990.SNP.INDEL. chrAll.vcf.bgz), но возвращает следующую ошибку)
bcftools view -f PASS --threads 8 -r chr9:55252802-55252810 -o 722g.990.SNP.INDEL.chrAll.vcf.gz -O z 722g.990.SNP.INDEL.chrAll.vcf.bgz
Тип вывода "722g.990.SNP.INDEL.chrAll.vcf.bgz" не распознан
Я планирую попробовать awk, но сначала нужно разархивировать файл. Можно ли частично разархивировать его, чтобы я мог попробовать это?
.vcf.bgz
->.vcf.bz
? - person davedwards   schedule 08.05.2019"722g.990.SNP.INDEL.chrAll.vcf.bgz"
находится в выходном сообщении об ошибке? потому что этого термина нет в предоставленной вами команде. - person davedwards   schedule 08.05.2019bcftools
? Если вы запустите командуfile
для входного файла, что она напечатает? - person Jukka Matilainen   schedule 08.05.2019bcftools view
с флагом-s
(перечислить образцы в командной строке) или-S
(перечислить образцы в файле), чтобы выбрать всего несколько образцов из вашего файла? - person jena   schedule 03.08.2021