Итак, вот оно, ребята! Я видел этот блог пост от DeepMind. Они утверждают, что их нейронная сеть AlphaFold2 наконец решила проблему предсказания структуры белков! Конечно, влияние этой работы будет более тонким, чем запись в блоге. Но я просто был взволнован, увидев какой-нибудь прорыв в моей старой области и заставивший мой старый научный мозг думать, не говоря уже о чем-то таком большом. Около 2 лет назад я защитил кандидатскую диссертацию по физике белков, и мне просто нужно было записать некоторые мысли об AlphaFold2. В основном как упражнение в разрушении воздействия работы. Ниже приведены некоторые из вопросов, которые возникли у меня в голове, и мои попытки ответить на них.

В чем заключается проблема прогнозирования структуры?

Существует гипотеза под названием Догма Анфинсена, согласно которой окончательная структура белка определяется исключительно его аминокислотной последовательностью. Часто вы увидите, что в литературе это также называется свернутое состояние или нативное состояние белка взаимозаменяемо. Вкратце можно сказать, что существует около 20 различных аминокислот, каждая из которых имеет разные химические и физические свойства. Белок представляет собой цепочку аминокислот, свернутую в крошечный шарик. В вашем теле есть 10 000 различных белков, которые действуют как крошечные наномашины, выполняющие всю работу, которую выполняют ваши клетки. Для гораздо более подробного (и лучшего!) резюме о белках и аминокислотах я бы порекомендовал этот пост из Roots of Progress.

Догма Анфинсена предполагает, что обычные (т. е. глобулярные) белки, которые часто встречаются в природе, сворачиваются в определенное нативное состояние, основанное исключительно на их белковой последовательности. Это было проверено экспериментально десятилетия назад. Однако ученые искали способ вычислить эту структуру без прохождения дорогостоящего и трудоемкого процесса экспериментальной кристаллизации и измерения структуры непосредственно в эксперименте.

Действительно ли DeepMind решил эту проблему?

Что касается конкретной проблемы предсказания структуры белка, я бы сказал: в основном да! Их метод, скорее всего, подойдет для вычисления структуры большинства обычных белков, встречающихся в природе. DeepMind доказал это в испытании CASP. Задача CASP — это событие, в ходе которого высвобождается много новых секвенированных и охарактеризованных белков, а конкуренты оцениваются по тому, насколько точны их предсказания структуры по сравнению с тем, что наблюдалось экспериментально. CASP чувствовал себя застопорившимся в течение многих лет, иногда мы шутили, что 20% успешных фолдов кажутся огромным успехом. Я помню, как у меня было много дискуссий с другими исследователями, пытавшихся выяснить, чего недостает для окончательного решения проблемы предсказания структуры.

Оказывается, для решения проблемы не потребовалось никаких новых научных открытий. Скорее, DeepMind удалось объединить все ранее обнаруженные знания в хорошо спроектированную систему. Это действительно свидетельствует о ценности инженерных дисциплин. Чтобы быть немного более конкретным, AlphaFold2 DeepMind звучит как (примерно) двухэтапный процесс:

  1. Нейронная сеть для предсказания функции потенциальной энергии белка и начального «угадывания» структуры белка.
  2. Используйте выходные данные нейронной сети с обычным моделированием молекулярной динамики, чтобы найти окончательный вариант с помощью обычной нейронной сети, чтобы получить более точную окончательную структуру.

Входные данные для нейронной сети — это то, что мы можем знать априорно. Например, последовательность аминокислот и MSA последовательности (множественное выравнивание последовательностей). MSA — это довольно простая и интуитивно понятная идея, которая гласит: похожие белковые последовательности уложены сходным образом. По сути, у них есть база данных многих белковых последовательностей, и AlphaFold2 будет использовать ее, чтобы «угадать», какой должна быть правильная складка. Это предположение не идеально, поэтому у них есть второй шаг с более традиционными методами, помогающими уточнить предсказанную структуру. Однако база данных выравниваний белковых последовательностей будет ограничена тем, что ученые наблюдали и секвенировали в природе. Таким образом, это будет смещено в сторону более традиционных глобулярных белков.

Вы продолжаете говорить «обычные» белки, а что нетрадиционного?

Отличный вопрос! Обычные белки являются глобулярными (наподобие шаровидных) и обычно встречаются в природе внутри нашей клетки. Почти все формы жизни на этой планете в основном состоят из воды, поэтому этим белкам для складывания требуется вода вокруг них. Их поведение при складывании и процесс перехода от развернутого белка к свернутому белку хорошо объясняются с помощью теории складывания-воронки для укладки белков.

Однако есть исключения. Например, общий класс нетрадиционных белков — это мембранные белки. Примером этого являются нейронные белки-передатчики в ваших нейронных клетках. Мембранные белки должны складываться и функционировать внутри жирно-маслянистой среды (вашей клеточной мембраны). Таким образом, физика сворачивания мембранного белка отличается от сворачивания чего-то в воде из-за другой растворяющей среды вокруг белка.

Следствием этого является то, что тренировочные данные, которые использует DeepMind, всегда будут смещены к обычным белкам. Это потому, что гораздо проще идентифицировать и кристаллизовать обычные глобулярные белки, чем нетрадиционные белки. Это связано не только с популяцией белков, встречающихся в природе, но и с большими техническими проблемами, связанными с экспериментами с обычными белками. Таким образом, данные DeepMind в банке данных о белках (PDB) могут не охватывать весь спектр возможностей всех белков, а скорее то, что ученым было проще всего сделать. Например, в статье DeepMind 2019 года об AlphaFold признается, что AlphaFold борется с неглобулярными (нетрадиционными) мембранными белками.

Есть ли другие ограничения AlphaFold2?

Еще одно очевидное ограничение заключается в том, что AlphaFold2, по-видимому, не предсказывает, как быстро будет сворачиваться белок. Другой концепцией, на которую ссылался DeepMind, был Парадокс Левинталя. Хотя они использовали это в своем посте, чтобы мотивировать проблему прогнозирования структуры, в парадоксе Левинталя есть еще одна часть о том, как белок может быстро складываться в природе. Типичные белки сворачиваются за микросекунды. Однако предыдущие попытки сконструировать совершенно новые белки часто встречались с последовательностями, которые никогда не сворачиваются или сворачиваются очень медленно. Хотя обычно окончательная свернутая структура белка коррелирует со скоростью фолдинга, есть некоторые исключения, когда одна и та же свернутая структура может иметь совершенно разные скорости фолдинга из-за нескольких мутаций. Таким образом, AlphaFold2, вероятно, может сделать хорошее предположение о том, как будет выглядеть белок в свернутом виде, но, вероятно, не может сказать многого о том, как быстро он может туда попасть.

Но можем ли мы использовать AlphaFold2 в качестве инструмента для некоторых исследований?

DeepMind много говорит об использовании AlphaFold2 для помощи в поиске лекарств. Я думаю, что это определенно верно для некоторых случаев. Например, если вы попытаетесь вслепую создать собственные белки, вы столкнетесь с серьезной проблемой. Для небольшого белка длиной 100 аминокислот существует 20¹⁰⁰ возможных последовательностей на выбор. Лишь немногие из них на самом деле приведут к свернутому белку. Но время проверки гипотезы может быть значительно сокращено, если вы можете использовать AlphaFold2, чтобы увидеть, получается ли предсказанная структура, вместо того, чтобы пытаться синтезировать ее в лаборатории.

Другой подход заключается в изучении того, какие мутации могут дестабилизировать структуру, а не в слепом поиске. Это то, с чем AlphaFold2, вероятно, может справиться очень хорошо, поскольку последовательности будут намного больше похожи на то, что AlphaFold2 наблюдал во время обучения. Не говоря уже о том, что, вероятно, будет еще много обращений MSA из его базы данных известных белковых структур, чтобы помочь предсказать окончательную структуру.

Что бы я хотел увидеть: API с открытым исходным кодом, где вы можете отправить последовательность аминокислот на сервер и получить обратно предсказанную структуру свернутого белка.

Эта нейронная сеть каким-то образом изучила квантовую механику?

Это я много слышал. Короткий ответ - нет". Средний ответ — «да», потому что все является квантовой волновой функцией. Длинный ответ — «нет», потому что я физик и у меня есть стандарты того, когда происходит квантовая механика.

Лакмусовая бумажка квантовой механики такова: требовалась ли квантовая волновая функция для правильного вычисления структуры белка? Физика фолдинга белков уже хорошо изучена, включая понимание того, что квантовые эффекты играют минимальную роль. Моделирование молекулярной динамики обычно использовало только классическую механику для моделирования сворачивания белка. Хотя есть некоторые эффекты, которые стирают грань, а некоторые действия, которые белок выполняет в природе, определенно требуют квантовой механики, процесс сворачивания не входит в их число.

Последний гвоздь в гроб — это то, что ученые пытались аппроксимировать волновые функции с помощью нейронной сети. Но это действительно сложно. Например, посмотрите этот короткий пост в блоге о нескольких попытках и относительных вычислительных затратах по сравнению с другими алгоритмами. DeepMind также попытался сделать это с FermiNet и добился неплохих результатов! Но их методы казались гораздо более ресурсоемкими, чем то, что, вероятно, делал AlphaFold2. Просто основываясь на том, что было сделано ранее, я серьезно сомневаюсь, что DeepMind случайно обучил нейронную сеть, которая случайно включала в себя мини-вычисление квантовой волновой функции. Хотя их идея построить нейронную сеть, подчиняющуюся принципу исключения Паули, была очень интригующей!

Как DeepMind улучшился на дрожжах?

Одним словом: следуйте за деньгами. Обучение AlphaFold2 было немного дорогим. Они упомянули, что использовали эквивалент 100–200 графических процессоров в течение нескольких недель на финальном обучении, поэтому на AWS это было бы эквивалентно 10-30 тысячам долларов. Если бы у них был доступ к более дешевому кластеру (кластеры научных вычислений обычно не являются коммерческими организациями), они, вероятно, могли бы снизить цену. Но если бы я потратил примерно такую ​​сумму денег только на одну модель, не сказав об этом своему консультанту… лучше не зацикливаться на таких мелочах. Вероятно, очень немногие исследовательские группы могут позволить себе обучение нескольких моделей такого размера. Особенно с учетом того, что DeepMind, вероятно, прошел через несколько итераций AlphaFold, которые были столь же дорогостоящими.

Должны ли ученые просто повесить шляпу?

Обзорная бумага, вышедшая в январе 2020 года, цитирует около 100 различных статей о различных попытках, предпринятых командами со всего мира. Идея использования нейронной сети даже возникла в 1989 году в этой бумаге. Кстати, Холли и Карплюс смогли напечатать всю свою нейронную сеть на одной странице в 1989 году! И хотя может показаться, что ученые даже близко не превзошли DeepMind в задаче CASP, их работа, вероятно, вдохновила исследователей DeepMind на реализацию.

Кроме того, финансирование науки больше связано с созданием новых методов или идей, чем с попыткой усовершенствовать одну идею. Правильно это или нет — это тема для обсуждения в другой день, но остается еще много нерешенных проблем в фолдинге белков, которые лучше всего могут решить ученые. Ни в коем случае не полный список, но некоторые примеры, которые я помню:

Наверняка ученым предстоит еще много интересного сделать!

Последние мысли

Это увлекательная работа. Мне нравится думать об этом с этой точки зрения: работа DeepMind построена на десятилетиях работы, проделанной примерно 10 000 аспирантов и исследователей со всего мира, которые кристаллизовали и задокументировали каждый белок в банке белковых данных. Не говоря уже о тысячах исследователей, которые разработали методы и предоставили их более широкому сообществу, из которого состоит AlphaFold. Академия всегда будет занимать особое место в моем сердце. Но DeepMind продемонстрировал ноу-хау, которое индустрия предоставляет для разработки такой сложной системы.