Использование PyTorch Geometric для работы с биологическими данными

Графические сверточные нейронные сети (GCN) привлекают все большее внимание за последние пару лет, и все больше и больше дисциплин находят им применение. Это также распространилось на науки о жизни, поскольку GCN использовались для анализа белков, лекарств и, конечно, биологических сетей. Одним из ключевых преимуществ сетей GCN, которое сделало возможным это расширение, является их способность работать с нелинейными форматами данных в исходном виде, в отличие от более линейных структур данных, таких как естественные языки. Благодаря этой функции мы также внедрили GCN для нашей интересующей темы, изучения сложных углеводов или гликанов.

Гликаны повсеместно встречаются в биологии, украшают каждую клетку и играют ключевые роли в таких процессах, как вирусная инфекция или уклонение опухоли от иммунитета. Они также представляют собой чрезвычайно разнообразные биологические последовательности, состоящие из сотен уникальных строительных блоков, по сравнению с двадцатью для белков или четырьмя для ДНК / РНК, которые также можно комбинировать в нескольких различных конфигурациях в растущей гликановой цепи. Наконец, гликаны являются единственной нелинейной биологической последовательностью, естественным образом образующей обширные ветви, которые сами могут далее разветвляться. Поэтому они являются частью подкласса графов, а именно деревьев. Это делает гликаны первыми кандидатами для соответствующего применения GCN в биологии.

Ранее мы разработали методы анализа последовательностей гликанов, рассматривая их как своего рода биологический язык. Мы использовали настройку рекуррентной нейронной сети, чтобы обойти нелинейность гликановых последовательностей, чтобы предсказать их иммуногенность, вклад в патогенность и таксономическое происхождение. В какой-то степени это сработало, превзойдя базовые уровни, такие как использование случайного леса на основе частот мотивов. Тем не менее, мы полагали, что более мощные алгоритмы, способные учитывать древовидную структуру гликанов, улучшат существующие приложения и позволят использовать новые подходы в изучении гликанов. Вот почему мы обратились к GCN, чтобы установить новый уровень техники для анализа гликанов.

GCN изучают отношения в графах (или деревьях), характеризуя узлы через их соседей в графе, или, точнее, через особенности соседних узлов. В нашем случае мы рассматриваем моносахариды (строительные блоки гликанов, такие как глюкоза или галактоза), а также их соединительные связи как узлы. Хотя может показаться более естественным рассматривать моносахариды как узлы, а связи как края, мы решили не использовать короткие, но важные гликаны, которые состоят только из одного моносахарида и одной связи. Чтобы позволить нашей GCN изучить особенности окрестностей узлов, мы сначала реализовали внедрение узла, так что каждый моносахарид и тип связи были представлены с помощью функций встраивания, которые могут быть изучены нашей моделью и использованы для характеристики окрестностей узлов. Чтобы лучше всего выразить богатое разнообразие гликанов, мы использовали для этой цели 128-мерное встраивание.

Затем нам нужно было выбрать ядро ​​графа, которое мы будем использовать для выполнения сверток графа. Этот процесс представляет собой вышеупомянутую процедуру изучения узла через его соседей и их особенности (в нашем случае, особенности встраивания типов узлов). После тестирования различных ядер графов мы закончили с операторами нейронных сетей с k-мерными графами, которые вдохновлены алгоритмом Вайсфейлера-Лемана для проверки изоморфизма графов и показали лучшую производительность на наших наборах данных. Теперь в GCN самое замечательное то, что вы можете иметь несколько сверточных слоев графа в одной модели. Это позволяет анализировать графики / гликаны на разных уровнях детализации. В то время как первый уровень может рассматривать только непосредственно связанные узлы для своего анализа, последующие уровни могут расширять это так называемое рецептивное поле и учитывать связь узла с узлами, которые далее удаляются в графе. В нашем случае мы выбрали модель с тремя из этих слоев как лучшую в своем классе.

Этот подход последовательных сверточных слоев графа позволяет модели изучать окрестности графа и даже характерные мотивы, которые могут быть предсказаны для последующих задач классификации в контролируемой настройке. Чтобы подытожить особенности, изученные на этих шагах, мы использовали объединяющие слои, которые уплотняют важную информацию из сверточных слоев графа для последующих слоев. После каждого сверточного слоя графа мы сначала используем слой объединения topk, который проецирует граф на меньший граф на основе изученной оценки проекции. Затем мы объединяем результаты операций объединения как глобального среднего, так и глобального среднего.

Это окончательное представление графа через три сверточных слоя графа затем маршрутизируется через полностью подключенную нейронную сеть, чтобы прийти к окончательному прогнозу для соответствующей задачи. Помимо стандартной (дырявой) настройки ReLU, выпадения и пакетной нормализации, мы также включаем в эту часть так называемый слой штанги. Обычно размерность представления после сверток медленно уменьшается в этой заключительной части в сторону вывода низкоразмерной модели. Тем не менее, слой стрелы временно увеличивает размерность (противоположность узкому месту), чтобы позволить модели избежать локальных минимумов и улучшить производительность. Мы дали этой последней модели название SweetNet, как дань уважения более широко известному и любимому типу углеводов. А теперь мы можем взглянуть на забавные вещи, которые можно сделать с помощью GCN для гликанов!

Создавая SweetNet, мы убедились, что наша прогнозирующая производительность превосходит ранее заявленные архитектуры, такие как рекуррентная нейронная сеть, упомянутая выше, по всем заявленным задачам. Одной из этих задач было предсказание того, будет ли гликановая последовательность распознаваться иммунной системой человека. Это важно, поскольку гликаны могут быть очень иммуногенными, например, в случае аллергенов или несовпадающих групп крови, но также и иммунодепрессивными, например, в случае иммунного уклонения опухоли. В нашем наборе данных SweetNet достигла точности тестового набора ~ 95%, основываясь исключительно на гликановых последовательностях. Затем мы извлекли графические представления этих последовательностей, полученные с помощью модели SweetNet, обученной предсказанию иммуногенности гликанов, сразу после сверточных слоев графа. При визуализации становится очевидным, что модель научилась разделять два класса иммуногенных / неиммуногенных гликанов. Более того, внутри неиммуногенных гликанов видна тонкая структура, которая напоминает различные категории гликанов человека (которые, конечно, имеют сходство последовательностей в пределах одной категории). И гликолипиды, и O-гликаны частично перекрываются с иммуногенными гликанами, поскольку эти гликаны присутствуют на поверхности наших слизистых оболочек и имитируются микробами, которые могут быть иммуногенными.

Наряду с другими приложениями мы также объединили этот GCN для гликанов с рекуррентной нейронной сетью для анализа последовательностей белков с целью прогнозирования взаимодействий между вирусами и гликанами. Большинству вирусов, от вируса гриппа до SARS-CoV-2, требуются определенные гликаны на клетках-хозяевах для их заражения. Фактически, соответствие гликанов вируса и хозяина может определять диапазон хозяев вируса. В случае вируса гриппа специфический белок, гемагглютинин, отвечает за связывание с гликанами клетки до проникновения в клетку и инфицирования. Различные штаммы вируса гриппа имеют разные последовательности гемагглютинина, и это может влиять на их специфичность связывания гликанов. Одним из примеров этого является различие между вирусом птичьего гриппа и вирусом гриппа млекопитающих. В то время как оба типа вируса гриппа в первую очередь распознают специфический моносахарид, называемый Neu5Ac, тип сиаловой кислоты, вирус птичьего гриппа обычно связывается только с Neu5Ac в конфигурации α2–3, тогда как вирус гриппа млекопитающих предпочитает Neu5Ac в конфигурации α2–6. Тонкий структурный сдвиг, но это единственный барьер, не позволяющий вирусу птичьего гриппа «перепрыгнуть» и заразить людей. Мутировав птичий гемагглютинин для связывания с Neu5Ac в конфигурации α2–6, вы внезапно сможете заразить людей этим мутировавшим вирусом птичьего гриппа.

Эта четкая связь между последовательностью гемагглютинина и специфичностью связывания гликанов привела нас к гипотезе о том, что мы можем использовать модель для изучения этих ассоциаций и прогнозирования вирусных гликановых рецепторов для вируса гриппа и других вирусов. Таким образом, мы построили модель сопоставления, которая, учитывая последовательность гемагглютинина и гликана, могла бы предсказать, приведет ли это к связыванию или нет, в настройке регрессии. Нам повезло в том, что у нас был большой набор данных экспериментально наблюдаемых взаимодействий гемагглютинина из различных штаммов вируса гриппа и набор гликанов, которые мы могли использовать для обучения и оценки нашей модели.

После обучения мы действительно смогли показать, что обученная модель воспроизводит мотивы с α2–3-связанным Neu5Ac для вирусов птичьего гриппа и с α2–6-связанным Neu5Ac для вирусов гриппа млекопитающих. Кроме того, модель также предсказала другие мотивы, которые могут иметь отношение к связыванию с вирусами гриппа, такие как мотивы сульфатированных гликанов, которые в прошлом предполагались в качестве возможных рецепторов гриппа. Затем мы показали, что это исследование можно распространить и на другие вирусы, такие как ротавирусы, которые являются частой причиной инфекций у младенцев. Здесь мы могли показать, что обученная модель предсказывает очень сложные гликаны грудного молока как связывание с ротавирусными белками, которые, как было независимо показано, связывают и нейтрализуют ротавирусы, демонстрируя защитный эффект грудного молока. Этот нейтрализующий эффект гликанов за счет прочного связывания с вирусами и предотвращения их связывания с клетками используется нашим организмом в различных случаях и может также предоставить возможность использовать нашу модель для разработки новых гликанов с улучшенными связывающими свойствами, которые в будущем может служить новым видом противовирусного препарата.

И это все, что нужно узнать о текущем состоянии GCN при анализе гликанов! Ну, во всяком случае, по большей части. За подробностями заходите в бумагу. Или загляните в пресс-релизы, чтобы получить более легко усваиваемую информацию о значении нашего исследования. Конечно, вот код SweetNet и все используемые данные доступны либо в репозитории GitHub, либо в дополнительных таблицах статьи. Не стесняйтесь обращаться к нам, если вас интересует эта область, и следите за будущими захватывающими разработками в области применения машинного обучения и науки о данных в гликобиологии!