На этой неделе я выполнил как первоначальный запрос на вытягивание, который я начал задолго до начала GSOC, так и инструменты Galaxy, о которых я упоминал на прошлой неделе. На следующей неделе я буду работать над созданием интеграции трекхаба с UCSC Genome Browser.

UCSC был одним из сотрудников проекта «Геном человека». Они опубликовали первую онлайн-копию генома, а также первоначальную версию браузера генома 7 июля 2000 года. Сегодня это программное обеспечение позволяет ученым исследовать местоположения в геноме вместе с множеством различных вариантов аннотаций, которые предоставляют информацию об этих местоположениях генома. . Интеграция концентратора треков, которую я буду создавать, позволит экспортировать аннотации SegAnnDB в двоичной форме в UCSC, а также сравнивать различные профили SegAnnDB.

Основные этапы разработки кода концентратора трека:

  1. Преобразуйте файл Bed (текстовый файл) в bigBed (двоичный файл).
  2. Создайте папку для трек-хаба на сервере.
  3. Создайте файл hub.txt, описывающий общий узел трека.
  4. Создайте файл genomes.txt, описывающий геном, связанный с файлами bigBed.
  5. Поместите bigBeds в папки, соответствующие их геномам.
  6. Наконец, создайте файлы trackDb.txt, описывающие каждую bigBed, а также при необходимости удобочитаемые файлы описания.

Эти шаги — просто начало реализации концентраторов треков в SegAnnDB. Должны быть созданы дополнительные функциональные возможности, позволяющие вводить всю информацию, необходимую для узла пути, а также способ обновления этой информации, когда что-то изменяется.

В следующие пару недель будет большой объем работы, но я думаю, что она того стоит.