Этот пост в блоге является первым в серии постов о машинном обучении для предсказания структуры белка и дизайна белка.

Я написал это, чтобы познакомить исследователей машинного обучения с предсказанием структуры белка, хотя это также может быть полезно для других новичков в CASP. Я объясню различные проблемы в CASP13 (Критическая оценка предсказания структуры белка) с точки зрения их входных данных, выходных данных и показателей успеха. Большинство проблем имеют несколько метрик, но я укажу только метрику по умолчанию на странице результатов CASP13. Я выбрал CASP13, поскольку показатели оценки для CASP14 еще недоступны. С тех пор были введены дополнительные проблемы, но этот пост должен дать вам достаточно информации, чтобы узнать об изменениях самостоятельно.

В конце этого поста есть глоссарий химических терминов и акронимов, распространенных в народном языке предсказания структуры белка.

Общий обзор предсказания структуры белка дан в сообщении в блоге DeepMind, поэтому я оставлю это им и сосредоточусь на определении конкретных проблем CASP. Большая часть контента составлена ​​из различных страниц на веб-сайте CASP и из исследовательских работ.

Проблемы CASP13

В CASP цель состоит в том, чтобы предсказать структуру белка, которая очень похожа на экспериментально определенную структуру белка. Основную истину определяют такими методами, как рентгеновская кристаллография и криоэлектронная микроскопия. Хотя основной целью CASP является предсказание структуры белка, конкретные задачи меняются из года в год. В CASP13 было 7 категорий:

Высокоточное моделирование (моделирование на основе шаблонов/TBM)

  • Цель: Точно предсказать свернутую третичную структуру белка по его первичной последовательности на основе аналогичного матричного белка с известной трехмерной структурой.
  • Исходные данные: первичная аминокислотная последовательность белка (предоставляется CASP) и, в большинстве случаев, матричный белок (легко обнаруживаемый методами обнаружения гомологии последовательностей, такими как BLAST) и его известная трехмерная структура. Обратите внимание, что домены FM/TBM не различаются на странице Список целей, поэтому вы должны отправлять прогнозы для всех целей. См. пример ввода здесь (примечание: шаблон на этой странице — это шаблон представления, а не шаблон структуры белка).
  • Выходные данные: трехмерные координаты всех неводородных атомов в складчатой ​​третичной структуре (в формате TS, стандартном формате для PDB). См. Пример 1 на этой странице.
  • Метрика: Общий балл теста Global Distance Test (GDT_TS)/Z-score. Во-первых, GDT_TS вычисляется с отсечкой на 1, 2, 4 и 8 Å (ангстрем). Затем вычисляются среднее значение и стандартное отклонение оценок GDT_TS, и каждой модели присваивается статистическая z-оценка при нормальном распределении. Эти баллы имеют минимальное пороговое значение -2,0 или 0. Наконец, вычисляется сумма z-баллов для каждой группы по всем задачам. Это улучшение по сравнению с необработанным GDT_TS, потому что он взвешивает сложные белки так же, как и простые белки, тогда как необработанный GDT_TS взвешивает баллы для простых задач более сильно. См. эту статью для описания GDT_TS и рис. 2 в этой статье для получения дополнительной информации о том, как рассчитываются z-оценки. Рейтинг CASP13 GDT_TS находится здесь — обязательно выберите только ТБМ-легко и ТБМ-сложно, затем нажмите Показать.

Топология (бесплатное моделирование/FM)

  • Цель: Предсказать свернутую третичную структуру белка по первичной последовательности без помощи матричных белков.
  • Исходные данные: первичная аминокислотная последовательность белка (предоставляется CASP). См. пример ввода здесь (примечание: шаблон на этой странице — это шаблон представления, а не шаблон структуры белка). Обратите внимание, что домены FM/TBM не различаются на странице Список целей, поэтому вы должны отправлять прогнозы для всех целей.
  • Выходные данные: трехмерные координаты всех неводородных атомов в складчатой ​​третичной структуре (в формате TS, стандартном формате для PDB). См. Пример 1 на этой странице.
  • Метрика: Общий балл теста Global Distance Test (GDT_TS)/Z-score. См. описание выше в разделе Моделирование высокой точности. Рейтинги CASP13 GDT_TS находятся здесь — обязательно выберите только FM, затем нажмите Показать.

Поддержка данных

  • Цель: Улучшить предсказание структуры белка с помощью вспомогательных экспериментальных данных, которые не являются данными рентгеновской кристаллографии. Это может включать данные SAXS, ЯМР, перекрестных связей или данных SANS.
  • Исходные данные: первичная аминокислотная последовательность белка (предоставленная CASP), а также вспомогательные данные в той или иной форме. См. пример ввода здесь (примечание: шаблон на этой странице — это шаблон представления, а не шаблон структуры белка).
  • Выходные данные: 3D-координаты для всех неводородных атомов в молекулярной структуре (в формате TS, стандартном формате для PDB).
  • Метрика: GDT_TS/Z-оценка. См. описание выше в разделе Моделирование высокой точности. Рейтинг CASP13 Data Assisted здесь.

Уточнение

  • Цель: улучшить прогнозирование структуры с помощью методов уточнения структуры (преимущественно с помощью моделирования молекулярной динамики).
  • Входные данные: первичная аминокислотная последовательность и трехмерные координаты всех неводородных атомов из ее свернутой третичной структуры (в формате TS, стандартном формате для PDB). Примечание. Обычно это легко моделируемое подмножество целевой последовательности, которое исключает части последовательности, неупорядоченные в кристаллической структуре. См. пример здесь.
  • Выходные данные: (уточненные) 3D-координаты для всех неводородных атомов в молекулярной структуре (в формате TS, стандартном формате для PDB).
  • Метрика: GDT_TS/Z-оценка, формула оценщиков/Z-оценка. Для GDT_TS/Z-показателя см. описание выше в разделе Моделирование высокой точности. Существует также формула оценщиков, в которой используются более строгие оценки точности — описание см. по ссылкам на формулу оценщиков здесь. CASP13 Refinement ранжирования — здесь и здесь.

Контактное предсказание (остаток к остатку)

  • Цель: Предсказать, контактируют ли остатки друг с другом в складчатой ​​третичной структуре.
  • Исходные данные: первичная аминокислотная последовательность белка (предоставляется CASP). См. пример ввода здесь (примечание: шаблон на этой странице — это шаблон представления, а не шаблон структуры белка). Предсказание контакта оценивается только на входах Topology/FM. Ни один из матричных белков не подходит для предсказания контактов. Но на странице Список целей домены FM и TBM не различаются, поэтому либо нужно отправлять прогнозы для всех целей.
  • Выходные данные: для каждой пары остатков вероятность (в диапазоне [0, 1]) того, находятся ли атомы С-бета (С-альфа в случае глицина) этих остатков в пределах 8 ангстрем друг от друга в складчатая третичная структура (в формате RR, см. пример 3 на этой странице).
  • Метрика: оценка F1/ES (оценка энтропии)/Z-оценка. Метрики для прогнозирования контактов сложны. Во-первых, они рассматривают только контакты среднего, дальнего и сверхдальнего действия — только контакты между остатками, которые находятся, например, на расстоянии >10 остатков друг от друга. Затем из остатков среднего диапазона они берут предсказанные вероятности контакта первых N и сравнивают эти остатки с истинными лучшими N (чаще всего, где N = L/5, а L — общая длина последовательности) ближайшими остатками. со стандартными показателями путаницы (точность, полнота, оценка F1 и т. д.). Затем рассчитывается ES, как описано в разделе Оценка точности прогнозов контактов в CASP13. Для каждой оценки (F1 и ES) рассчитываются Z-оценки в соответствии с процедурой, описанной выше в категории Моделирование высокой точности. Окончательная оценка прогноза составляет 1,0 * Z-оценка (F1) + 0,5 * Z-оценка (ES), и группы ранжируются в соответствии с суммой их оценок прогнозирования по всем целевым белкам. Рейтинги CASP13 Contact Predicton находятся здесь и здесь.

Предсказание сборки (ака мультимеры)

  • Цель: предсказать четвертичную структуру многоцепочечного белка.
  • Входные данные: две или более первичных последовательности (в формате FASTA) и переменная стехиометрия, дающая ожидаемый тип четвертичной структуры (например, A3 для гомотримера, A3B1 для тетрамера, состоящего из гомотримера и мономера). Цели для прогнозирования сборки можно определить по значению переменной стехиометрии, отличному от A1, в Списке целей. См. пример ввода здесь (примечание: шаблон на этой странице — это шаблон представления, а не шаблон структуры белка).
  • Входные данные — Примечание: Как и в случае с категориями «Высокоточное моделирование» и «Топология», для мультимеров некоторые мишени имеют сходные матричные белки, третичная структура которых уже известна. В тех случаях, когда шаблон доступен, это еще один (очень полезный) вход для модели прогнозирования.
  • Выходные данные: 3D-координаты для всех неводородных атомов в молекулярной структуре (в формате TS, стандартном формате для PDB).
  • Метрика: F1/Jaccard/LDDT/GDT_TS/Z-оценка. Во-первых, мы находим предсказанные остатки интерфейса (остатки, которые находятся в пределах 5 Å друг от друга, но происходят из двух разных цепей). Их сравнивают с истинными поверхностными остатками, чтобы получить оценку F1 и оценку Жаккара, как описано в разделе Оценка предсказания сборки белка в CASP12. Затем мы рассчитываем показатель LDDT для качества локальной модели (описанный в разделе LDDT: локальный показатель без суперпозиции для сравнения белковых структур) и GDT_TS (описанный здесь) для качества глобальной модели. Затем мы вычисляем Z-оценки для оценок F1, Jaccard, LDDT и GDT_TS, как описано выше в категории Моделирование высокой точности. Окончательная оценка прогноза представляет собой Z-оценку (F1) + Z-оценку (оценку Жаккара) + Z-оценку (LDDT) + Z-оценку (GDT_TS), и группы ранжируются в соответствии с суммой их оценок прогнозирования по всем целевым белкам. . Процедура оценки описана в разделе Оценка предсказания сборки белков в CASP13. Рейтинг CASP13 Assembly Prediction Rankings находится здесь.

Оценка точности

  • Цель: оценить качество прогнозов структуры белка.
  • Входные данные: цель (т. е. первичная последовательность структуры белка, которая была определена экспериментально) и предсказание структуры для этой цели (трехмерные координаты атомов в формате TS).
  • Вариант вывода 1: одно число, обозначающее общий показатель качества (от 0 до 1, в формате QA, см. пример 4 на этой странице). Определите вариант 1, указав индекс модели 1.
  • Вариант вывода 2: одно число, указывающее общий показатель качества (от 0 до 1) И оценки погрешности (в ангстремах) для каждого остатка (в формате QA, см. пример 4 на этой странице). Определите вариант 2, указав индекс модели 2.
  • Метрика: средняя абсолютная разница между прогнозируемым глобальным показателем качества и истинным GDT_TS по всем целям. Рейтинг CASP13 Accuracy Estimation находится здесь.

Глоссарий

  • Первичная структура: аминокислотная последовательность белка.
  • Вторичная структура: вторичная складчатая структура белка — субпоследовательности, которые складываются в (чаще всего) альфа-спирали, бета-листы, (реже) бета-витки и омега-листы.
  • Третичная структура: третичная структура свернутого белка — трехмерные координаты атомов относительно друг друга.
  • Четверичная структура: трехмерные координаты белкового комплекса, состоящего из двух или более третичных структур с нековалентными взаимодействиями между атомами их боковых цепей.
  • Остаток: одна аминокислота, состоящая из основной цепи (состоящей из карбоксильной группы, альфа-углерода и аминогруппы) и боковой цепи (R-группы).
  • R-группа: R-группа — это часть аминокислоты, которая выходит за пределы остова и уникальна для каждой отдельной аминокислоты.
  • Боковая цепь: Боковая цепь представляет собой «R-группу», которая варьируется от аминокислоты к аминокислоте.
  • Прогнозирование контакта: прогнозирование того, находится ли каждая пара остатков в контакте друг с другом, определяемое как находящееся в пределах 8 Å (ангстрем).
  • Цель: белок, для которого исследователи могут представить прогнозы структуры.
  • Мономер: Одна полипептидная цепь, взаимодействующая только сама с собой.
  • Олигомер: Молекула, состоящая из нескольких звеньев, связанных нековалентными взаимодействиями (т.е. отдельные белки, взаимодействующие в белковом комплексе). Димер — это олигомер, состоящий из двух мономеров, тример — это олигомер, состоящий из трех мономеров и т. д.
  • Гомодимер: олигомер, состоящий из двух идентичных мономеров.
  • Гетеродимер: олигомер, состоящий из двух разных мономеров.
  • Гомотример: олигомер, состоящий из трех одинаковых мономеров.
  • Гетеротример: олигомер, состоящий из трех разных мономеров.
  • Гомоолигомер: олигомер, состоящий как минимум из двух идентичных мономеров.
  • Гетероолигомер: олигомер, состоящий как минимум из двух разных мономеров.
  • Гетеромер: то же, что и гетероолигомер.
  • Мультимер: то же самое, что и олигомер, но используется только в контексте белков.
  • Пептид: короткая цепь аминокислот (2–50 остатков).
  • Полипептид: цепь аминокислот средней длины (15–50 остатков).
  • Белок: длинная цепь аминокислот (>50 остатков).
  • Белковый комплекс: два или более взаимодействующих белка четвертичной структуры.

Акронимы

  • PDB: Банк белковых данных
  • RR: остаток к остатку
  • ТС: третичная структура
  • CA/CB/CG/CD/CE/CZ/CG1/CG2/CD1/NZ/NE/NE2/NH1/NH2/OE1/OE2/OG1: Сокращения, распространенные в формате PDB TS. Углерод-альфа, углерод-бета, углерод-гамма, углерод-дельта, углерод-эпсилон, углерод-дзета, углерод-гамма ветвь 1, углерод-гамма ветвь 2, углерод-дельта ветвь 1, азот-дзета, азот- эпсилон, азот-эпсилон ветвь 2, азот-эта ветвь 1, азот-эта ветвь 2, кислород-эпсилон ветвь 1, кислород-эпсилон ветвь 2, кислород-гамма ветвь 1. Здесь - руководство по расшифровке этих названий.
  • FM: свободное моделирование, также известное как ab initio, новая складка или моделирование без шаблона. Относится к задаче предсказания структуры без помощи шаблонной структуры аналогичного белка.
  • TBM: Моделирование на основе шаблонов. Относится к задаче предсказания структуры белка с помощью шаблонной структуры аналогичного белка.

Я надеюсь, что это полезно! Если есть какие-либо ошибки или опечатки, дайте мне знать в комментариях, и я обновлю пост.