Объедините несколько файлов VCF в один большой файл VCF.

У меня есть список файлов VCF определенной этнической принадлежности, такой как американские индейцы, китайцы, европейцы и т. д.

По каждой национальности у меня есть около 100+ файлов.

В настоящее время я вычислил метрики VARIANT QC, такие как call_rate, n_het и т. д., для одного файла, как показано в руководстве по приветствию (см. изображение ниже).

изображение здесь

Однако теперь я хотел бы иметь по одному файлу для каждой национальности, а затем вычислить VARIANT_QC метрики.

Я уже ссылался на этот сообщение и это сообщение, но не думайте, что это адрес мой запрос

Как я могу сделать это для всех файлов определенной этнической принадлежности?

Можете помочь мне с этим?

Есть ли hail/python/R/other tools способ сделать это?


person The Great    schedule 08.09.2020    source источник


Ответы (1)


Для достижения этой цели вы можете использовать Variant Transforms. Variant Transforms – это инструмент для анализа и импорта файлов VCF в BigQuery. Он также может выполнять обратное преобразование: экспортировать варианты, хранящиеся в таблицах BigQuery, в файл VCF. Итак, в основном вам нужно:  multiple VCF files -> BigQuery -> Single VCF file

Variant Transforms может легко обрабатывать несколько входных файлов. . Он также может выполнять более сложную логику для объединения одинаковых вариантов для нескольких файлов в одну и ту же запись. После загрузки всех вариантов в BigQuery вы можете экспортировать их. в файл VCF.

Обратите внимание, что Variant Transforms создает отдельная таблица для каждой хромосомы для оптимизации затрат на запросы. Вы можете легко создать файл VCF для каждой хромосомы, а затем объединить их вместе, чтобы создать один.

Если вам нужна помощь в решении этой задачи, вы можете обратиться к команде Variant Transforms.

person Saman    schedule 08.09.2020