Структура машинного обучения, помогающая расшифровывать правила, по которым факторы транскрипции связываются со своими целевыми сайтами

Опубликовал An Zheng от имени Gymrek Lab

Этот пост в блоге представляет нашу статью Глубокие нейронные сети определяют особенности контекста последовательности, предсказывающие связывание фактора транскрипции, опубликованную в Nature Machine Intelligence [1]. Вот бесплатная копия только для чтения этой статьи [2]. Часть этой работы также была представлена ​​на семинаре ICML по вычислительной биологии 2019 года [3].

TL;DRМы разработали платформу машинного обучения AgentBind, чтобы идентифицировать и интерпретировать функции последовательности, наиболее важные для связывания фактора транскрипции (TF). . В отличие от большинства предыдущих работ, изучающих мотивы связывания, наша работа фокусируется на контексте последовательности вблизи мотивов и изучает его роль в связывании TF.

Задний план

Связывание факторов транскрипции (TFs) с ДНК является одним из основных механизмов регуляции транскрипции. Исследования показали, что большинство TF обладают уникальными предпочтениями в отношении связывания и распознают только последовательности ДНК, содержащие определенные паттерны (т. е. основные мотивы). Однако часто существует лишь частичное перекрытие между последовательностями, совпадающими с мотивами, и экспериментально определенными сайтами связывания. Связан ли конкретный экземпляр мотива, зависит от многих других факторов, включая доступность хроматина, позиционирование нуклеосом, кооперативное и конкурентное связывание с др. TF и ​​др. Многие из этих факторов связаны с контекстом последовательности вокруг мотива TF. Чтобы исследовать роль контекста последовательности в связывании TF, мы разработали структуру под названием AgentBind для (1) прогнозирования того, будет ли экземпляр мотива связан, и (2) интерпретации конкретные нуклеотиды с самым сильным влиянием на статус связывания.

Метод

Структура нашей модели состоит из трех этапов: предварительное обучение, тонкая настройка и интерпретация (рис. 1), и в качестве архитектуры модели используется DanQ. Во-первых, мы предварительно обучаем модель DanQ на эпигеномных аннотациях из нескольких типов клеток (собранных в рамках проекта DeepSEA). Во-вторых, мы создаем бинарный набор данных для каждого TF: мы извлекаем геномные последовательности размером 1 КБ, сосредоточенные на экземплярах мотива, и помечаем каждую последовательность как связанную (положительную) или несвязанную (отрицательную) на основе перекрытия с сайтами связывания, идентифицированными ChIP. -последовательность действий. Каждый набор двоичных данных используется для точной настройки отдельной предварительно обученной модели, что позволяет ей изучить важные функции для привязки TF. В-третьих, мы использовали метод интерпретации модели под названием Grad-CAM, чтобы оценить вклад каждого нуклеотида в предсказания связывания.

Результат

С помощью AgentBind мы идентифицировали нуклеотидные основания, предсказывающие связывание фактора транскрипции. На рис. 2 показан пример, содержащий оценки Grad-CAM для региона (chr1: 12289432–12290431 в hg19). По оси Y показана оценка Grad-CAM для каждого нуклеотида. Показаны последовательности для центрального мотива SP1 и двух областей с высокими баллами, соответствующих мотивам NFY.

Мы обнаружили, что выбор обучающих данных сильно влияет на точность классификации и относительную важность таких признаков, как открытый хроматин.

Для отрицательных образцов в обучающих данных мы можем выбрать, будут ли они находиться в гиперчувствительных к ДНКазе I сайтах или нет, что приведет к двум различным моделям: модели, контролируемой ДНКазой I, и базовой модели. На рис. 3 показаны ключевые функции контекста, определенные этими двумя моделями. В то время как базовая модель дает лучшие результаты классификации, модель, контролируемая ДНКазой-I, идентифицировала некоторые отдельные закономерности, которые игнорируются в базовой модели.

Наши результаты для STAT3 для нескольких типов ячеек показывают, что важные контекстные основы сильно зависят от типа ячейки.

Чтобы исследовать способность нашей структуры фиксировать регуляторные функции, специфичные для типа клеток, мы выбрали TF с именем STAT3 и обучили отдельные модели прогнозировать связывание STAT3 с использованием данных секвенирования ChIP для трех типов клеток (GM12878, CD4 + Th17 и клетки HeLa). . Наш анализ показывает, что некоторые обогащенные 5-меры являются общими для нескольких типов клеток, тогда как другие сильно специфичны для типа клеток (рис. 4).

Пожалуйста, ознакомьтесь с нашей статьей для получения дополнительных результатов и сведений о методе.

Вывод

В целом, наше исследование обеспечивает ценную основу машинного обучения, помогающую расшифровать правила, по которым TF связывают свои сайты-мишени, и определить конкретные некодирующие нуклеотиды, оказывающие наибольшее влияние на связывание. Чтобы упростить будущие приложения, оценки Grad-CAM для всех изученных здесь моделей TF и ​​код для запуска AgentBind доступны на нашей странице GitHub.

[1] Ань Чжэн, Майкл Ламкин, Ханьцин Чжао и др. Глубокие нейронные сети идентифицируют особенности контекста последовательности, предсказывающие связывание фактора транскрипции. Nature Machine Intelligence (2021), DOI: 10.1038/s42256–020–00282-y. [2] https://rdcu.be/cdMmE
[3] Ан Чжэн, Майкл Ламкин, Хао Су, Мелисса Гимрек. AgentBind: профилирование контекстно-зависимых детерминант сродства связывания фактора транскрипции. Семинар Международной конференции по машинному обучению (ICML) по вычислительной биологии, Лонг-Бич, Калифорния, 2019 г.