Если вы хотите узнать больше об AlphaFold 2 и его влиянии на биологию, ознакомьтесь с другой историей!

Введение. Что вы подразумеваете под «моделированием белковых структур»?

Структурная биология пытается объяснить биологические системы на атомном уровне. Для этого дисциплина критически зависит от доступности структур вовлеченных молекул, наиболее важными из которых обычно являются белки. Хотя многие структуры могут быть определены с помощью экспериментальных методов, таких как рентгеновская или нейтронная дифракция, ядерный магнитный резонанс, а теперь и электронная криомикроскопия, существует также альтернатива предсказания или «моделирования» этих структур с использованием вычислительных методов.

Такие предсказания необходимы для большого числа биологических молекул, которые невозможно произвести в количествах и условиях, необходимых для различных экспериментов. Но предсказание структуры также может быть полезно для молекул, которые несложно произвести и манипулировать ими во время экспериментов, необходимых для определения структуры, но для которых количество информации, предоставляемой структурой, не оправдывает затрат и времени. В самом деле, если бы мы могли предсказывать структуры белков с достаточной уверенностью, мы могли бы сосредоточить эксперименты только на особенно сложных системах или на изучении влияния возмущений на структуру, таких как эффект связывания лекарства с исследуемым белком. В крайнем случае, если бы мы могли предсказать всю физику и химию данной системы на атомном уровне, мы могли бы вообще отказаться от экспериментов по определению структуры и сосредоточить усилия непосредственно на понимании механизмов и всего, что из них следует: разработка, проектирование новых функций, понимание эволюции и т. д.

Учитывая то влияние, которое предсказания белковых структур могут оказать на биологию, поколения исследователей работали над этой проблемой на протяжении десятилетий. Разработано множество методов, которые можно разделить на две основные группы. С одной стороны, те, которые используют уже известные структуры, чтобы попытаться предсказать белковые структуры схожей последовательности, процедура, известная как «моделирование гомологии». С другой стороны, те методы, которые пытаются «свернуть» последовательности без какой-либо гомологии с белками известной структуры, например, с помощью моделирования, основанного на основных физико-химических принципах, или с использованием информации о структуре небольших пептидных фрагментов и/или остатков. контакты.

CASP: оценка методов и групп, занимающихся прогнозированием структуры белка

Большая проблема, возникшая вместе с методами, программами и специалистами по предсказанию структуры белков, заключается в том, как оценить качество этих предсказаний. В начале 1990-х годов родилась организация Critical Assessment of Structure Prediction, или CASP, целью которой является обеспечение постоянного мониторинга и оценки доступных методов предсказания белковых структур. Конкурс (не любят его так называть, но для большинства участников он именно такой!) проходит раз в два года, в ходе которого организаторы собирают экспериментальные структуры («мишени»), не выпущенные Protein Data. Банк. Организаторы предоставляют аминокислотные последовательности этих белков группам предсказателей (людям и серверам), которые через определенный период времени затем отправляют свои прогнозы (3D-модели белков) организаторам. Затем группа асессоров, независимая от организации и не участвующая в качестве предикторов, оценивает модели, предоставленные предикторами, в сравнении с экспериментальными структурами (к которым имеют доступ только асессоры). Каждое соревнование заканчивается серией статей, в которых описываются трудности, связанные с целями, и качество моделей, предоставляемых предикторами, создается «официальный» рейтинг предикторов и обсуждается «современное состояние» моделирования, особенно относительно того, какие методы работали, какие структурные проблемы было особенно трудно предсказать и т. д. На самом деле это не весь CASP, но его ядро, называемое направлением «предсказания третичной структуры», также известное как направление «оценка топологии». Затем каждое издание CASP включает другие оценки, которые оценивают дополнительные аспекты, такие как способы взаимодействия нескольких белков, когда они объединяются, уточнение деталей, предсказание функций и т. д.

В период с 2016 по 2020 год состоялись 12-й и 13-й выпуски CASP. Я был оценщиком в основном конкурсе обоих изданий, занимаясь оценкой прогнозов третичной структуры для сложных целей. Вот как я мог так много узнать о конкурсе, о чем я рассказываю вам в этой статье.

Далее я опишу еще несколько интересных вопросов, возникающих из моего опыта работы оценщиком CASP. И я говорю, что они были интересны, потому что после нескольких лет незначительных улучшений в прогнозировании структуры или вообще без них, в CASP12 наблюдался небольшой рост, вызванный так называемыми «предсказаниями контактов между остатками на основе коэволюции», введенными многими группами, но доведенными до предела Программа Deepmind (Alphabet/Google) AlphaFold в CASP13 и других группах, которые использовали методы машинного обучения. Сейчас завершается 14-е издание CASP, и новая версия программы Google AlphaFold2 делает еще больший скачок, как вы, возможно, видели в СМИ в декабре 2020 года.

Хотя я считаю эту статью поверхностной и простой, вы можете ознакомиться с этими ссылками на мой подробный, рецензируемый анализ (все статьи в открытом доступе):

Документ CASP12 1: определение целей

Документ CASP12 2: оценка

Документ 3 CASP12: влияние использования данных с низким разрешением

Документ CASP13: оценка

Краткий обзор в Брифингах по биоинформатике

Современное состояние моделирования белков с доменами, классифицируемыми как сложные

Обычно мишени, доступные в CASP, делятся на единицы оценки («домены») в соответствии с несколькими критериями, основанными на автоматических метриках и визуальном анализе структур мишеней, возможных шаблонов, доступных в банке данных белков, и даже предоставленных моделей. по предсказателям. Затем оценочные единицы классифицируются в соответствии с их сложностью. Основными классами обычно являются TBM для «моделирования на основе шаблонов», которое должно быть легко предсказуемо, поскольку в банке данных белков есть хорошие шаблоны, FM для «свободного моделирования», что означает отсутствие очевидных шаблонов, и FM / TBM. который группирует единицы оценивания, для которых имеются сходные шаблоны либо на уровне структуры, либо на уровне последовательности, но не на том и другом, или для которых, несмотря на хорошие шаблоны, прогнозы среднего качества. CASP обычно имеет несколько десятков доменов, закрепленных за каждым классом. Моя работа в CASP13 и CASP14 заключалась в оценке прогнозов для доменов FM и FM/TBM. В этой оценке основная цель состоит в том, чтобы сначала определить общее качество складывания и, в случае моделей, которые очень хорошо фиксируют складывание, оценить более мелкие детали. Хотя окончательная оценка всегда имеет некоторый субъективный компонент, поскольку она основана на экспертной оценке моделей по сравнению со структурами, CASP предоставляет несколько автоматизированных показателей, которые помогают направлять и поддерживать оценку. Наиболее важной из этих оценок является так называемая GDTTS (Global Distance Test-Total Score), которая измеряет долю модельных остатков, которые могут быть выровнены (на уровне их альфа-углерода) с соответствующими остатками в целевой структуре в пределах 1, 2, 4 и 8 Å. Таким образом, GDTTS фиксирует как глобальные признаки сворачивания, так и мелкие детали, принимая значения от ~10–20 для моделей, полностью несовместимых с целью, до 100 для моделей, все остатки которых идеально подходят в пределах 1 Å от цели, т.е. цель.

Домены CASP12 и CASP13 были одними из самых сложных в истории CASP. Для многих из этих доменов нет гомологичных белковых структур в Protein Data Bank, в то время как в некоторых случаях есть белки аналогичной укладки, но полученные за счет совершенно другой последовательности, что затрудняет их поиск предикторами с помощью поиска на уровне последовательности. . Было приятно отметить, что для многих из этих сложных единиц оценки существовала по крайней мере одна модель очень хорошего качества. На самом деле, CASP12 показал тонкое, но заметное улучшение по сравнению с CASP11, а CASP13 показал еще одно улучшение, даже если не учитывать звезду AlphaFold. Если вас интересуют подробности и вы хотите увидеть реальные примеры сравнения моделей со структурами, вы можете ознакомиться с официальными документами CASP 12 и 13 (документы CASP14 должны выйти в ближайшее время). Кроме того, со всеми прогнозами можно ознакомиться в интерактивном 3D-режиме в веб-приложениях, которые мы представили, чтобы упростить оценку и сделать ее прозрачной для сообщества:

Приложение CASP12 с 3D-представлениями и показателями: http://lucianoabriata.altervista.org/papersdata/casp12fmassessment/casp12-fm-fmtbm-assessment-3Aclusters.html

Приложение CASP13 с 3D-представлениями и метриками: https://psychoprot.epfl.ch/casp13-topology-assessment/

Прогресс и причины прогресса

Очень важный вопрос в сообществе CASP заключается в том, насколько реально наблюдается прогресс в зависимости от времени. Это сложный вопрос, поскольку он зависит от сложности целей, представленных в каждом издании, от количества информации и шаблонов, доступных для них, и даже от некоторых субъективных вопросов об оценке единиц оценивания и даже об их определении. Первое приближение с использованием оценок GDTTS лучших моделей, представленных в каждом CASP для каждой цели, показывает, что между CASP1 и CASP5 произошло быстрое улучшение методов моделирования белков, за которым последовала стабильная ситуация до CASP11, а затем небольшой положительный скачок от CASP11 к CASP12. и с CASP12 на CASP13. На конференции CASP14 был представлен гораздо больший скачок, но официальные документы с описанием оценок еще не опубликованы.

Как было показано в некоторых случаях и может быть изучено более подробно в исходных оценочных статьях CASP12 и CASP13, новые методы и группы предикторов включают предсказания межостаточных контактов, расстояний и ориентаций, чтобы помочь в предсказаниях их структуры. Даже версия 1 Alphafold работала так (в то время как версия 2 работает совершенно по-другому, что я могу трактовать после выхода официальных документов CASP14). Методы предсказания контакта остатков и остатков и расстояния уходят корнями (но в настоящее время в гораздо большей степени) в концепцию коэволюции остатков, согласно которой пары остатков, которые находятся в контакте в трехмерной структуре, подвергаются заменам коррелированным образом во время эволюции. Учитывая выравнивание последовательностей родственных белков, среди которых есть целевой белок, методы обратной коэволюции могут сделать вывод о контактах остаток-остаток на основе моделей аминокислотных замен при выравнивании. Как в CASP12, так и в CASP13 мы заметили, что среди наиболее сложных единиц оценки (FM) те, для которых можно собрать более глубокие выравнивания (т.е. с большим количеством последовательностей на остаток), часто моделируются лучше. Это не относится к единицам оценки, классифицированным как FM/TBM и TBM, где группы предикторов и программы, вероятно, предпочитали использовать более традиционные методы, основанные на моделировании гомологии.

CASP12 показал, по существу, предсказанные контакты остаток-остаток, которые помогли свернуть некоторые белковые домены даже в отсутствие белков-гомологов известных структур. Затем в CASP13 методы машинного обучения в сочетании с данными о совместной эволюции остатков из выравниваний и с изучением PDB позволили оценить не только контакты между остатками, но также расстояния и ориентации между парами остатков. Это было дополнительно уточнено в CASP14 с помощью большинства методов, всегда с использованием окончательного набора контактов, расстояний и углов для управления свертыванием целевого белка. За исключением Deepmind, который представил новую архитектуру нейронной сети, которая может целостно представлять все, от выравнивания последовательности до структуры непосредственно внутри нейронной сети, достигая превосходных результатов, как вы, возможно, видели в статьях в прессе в декабре 2020 года.

Текущие ограничения

Мой анализ прогнозов в CASP12 и CASP13 выявил все важные проблемы, которые не смогли решить ни автоматизированные методы, ни специалисты-люди. Вы можете подумать, что некоторые из них могли быть решены в CASP14, по крайней мере, в Alphafold2. Что ж, это сложно оценить, и даже если так… ни AlphaFold1, ни AlphaFold2 недоступны для использования, поэтому на практике большинство проблем, скорее всего, все еще существуют.

Каковы эти ограничения? Начнем с того, что белки с более чем 150 остатками очень трудно моделировать, когда нет ни гомологов известной структуры для использования в качестве матриц, ни достаточного количества последовательностей для надежного предсказания контактов. Напротив, несколько белков менее чем из 125 остатков можно было предсказать, по крайней мере глобально, даже в тех случаях, когда не было гомологов с известной структурой и нескольких последовательностей для предсказания контактов.

Повторяющаяся проблема заключается в существовании структурных гомологов без сходства последовательностей, так что шаблон остается незамеченным, что очень затрудняет целевое моделирование. Новые методы обнаружения сходства последовательностей, например, встроенные в AlphaFold2, безусловно, помогут в этом аспекте. В этом отношении интересно, что некоторые группы, используемые в CASP12 и 13, связываются с предсказаниями из последовательностей для получения моделей топологии, чтобы найти подходящие шаблоны, чтобы затем смоделировать цель на основе найденного шаблона.

В тех случаях, когда удается найти шаблоны, ясно, что удаление вставок из модели по отношению к мишени в большинстве случаев удовлетворительно, а наоборот, т.е. вставка фрагментов мишени в шаблон, часто затруднено. Другой проблемой является отсутствие достаточного количества последовательностей не только для расчета контактов между остатками, но и для возможности найти гомологи известной структуры, но с небольшим сходством последовательностей.

С точки зрения структур важными проблемами являются наличие обменов доменов, т. е. сегментов последовательности, которыми обмениваются соседние домены; длинные петли и домены с большим количеством остатков без принятия вторичной структуры, что также усложняет моделирование соседних доменов; также прерывистые домены обычно проблематичны (хотя теперь их можно, по крайней мере, обнаружить с помощью прогнозов контактов). Олигомеризация в некоторых случаях усложняет моделирование; и в мембранных белках, в то время как методы умеренно надежны для трансмембранного ядра, детализированные вопросы, такие как амфипатические спирали, сложны.

Как получить прибыль от всех этих новых технологий?

Товарищ структурный биолог и молекулярный модельер, вы наверняка уже знаете, что вы не можете использовать AlphaFold, даже версию 1. Однако академические группы отстают всего на один или, может быть, на полшага, и они действительно предлагают свои методы в виде полных программ и даже в виде программ. серверы. Я рекомендую вам прочитать этот рецензируемый обзор, который я написал после CASP13, с очень прагматичным взглядом на то, как извлечь выгоду из разработок самых эффективных групп CASP:

Современные веб-сервисы для предсказания структуры белков de novo

А также, чтобы вы ознакомились с интерактивной версией Таблицы 1 из этой статьи: http://lucianoabriata.altervista.org/papersdata/bib2020.html

Несколько заключительных слов

Когда (и в первые недели после этого) я участвовал в онлайн-конференции CASP14 в декабре 2020 года, я чувствовал, что сообщество академических специалистов по прогнозированию белков несколько «убито горем», поскольку AlphaFold2, казалось, добился гораздо большего прогресса за 2–4 года, чем за десятилетия. . Но я думаю, что это плохое чувство теперь полностью ушло, и я видел академические группы, приближающиеся к тому, что сделал Диминд. Так что, кто знает, может быть, CASP15 (запланированный на 2022 год) найдет лучшие академические группы, соответствующие AlphaFold2, а затем сделает аналогичные возможности моделирования открытыми для всего мира. У CASP светлое будущее.

Я увлекаюсь природой, наукой, технологиями, программированием и самоделкой. Биотехнолог и химик, в мокрой лаборатории и в компьютерах. Пишу обо всем, что входит в широкую сферу моих интересов. Проверьте мои списки для большего количества историй. Стать участником Medium, чтобы получить доступ ко всем историям, написанным мной и другими авторами, и подписаться, чтобы получать мои новые истории по электронной почте (оригинальные партнерские ссылки платформы).