На этой неделе я выполнил как первоначальный запрос на вытягивание, который я начал задолго до начала GSOC, так и инструменты Galaxy, о которых я упоминал на прошлой неделе. На следующей неделе я буду работать над созданием интеграции трекхаба с UCSC Genome Browser.
UCSC был одним из сотрудников проекта «Геном человека». Они опубликовали первую онлайн-копию генома, а также первоначальную версию браузера генома 7 июля 2000 года. Сегодня это программное обеспечение позволяет ученым исследовать местоположения в геноме вместе с множеством различных вариантов аннотаций, которые предоставляют информацию об этих местоположениях генома. . Интеграция концентратора треков, которую я буду создавать, позволит экспортировать аннотации SegAnnDB в двоичной форме в UCSC, а также сравнивать различные профили SegAnnDB.
Основные этапы разработки кода концентратора трека:
- Преобразуйте файл Bed (текстовый файл) в bigBed (двоичный файл).
- Создайте папку для трек-хаба на сервере.
- Создайте файл hub.txt, описывающий общий узел трека.
- Создайте файл genomes.txt, описывающий геном, связанный с файлами bigBed.
- Поместите bigBeds в папки, соответствующие их геномам.
- Наконец, создайте файлы trackDb.txt, описывающие каждую bigBed, а также при необходимости удобочитаемые файлы описания.
Эти шаги — просто начало реализации концентраторов треков в SegAnnDB. Должны быть созданы дополнительные функциональные возможности, позволяющие вводить всю информацию, необходимую для узла пути, а также способ обновления этой информации, когда что-то изменяется.
В следующие пару недель будет большой объем работы, но я думаю, что она того стоит.