Что такое белковый фолдинг и что это означает для нас?

Когда ученые впервые секвенировали геном человека, многие ожидали увидеть астрономические достижения в науке, здравоохранении и медицине. Это знаковое достижение в области генетических исследований породило гораздо больше вопросов, чем ответов. Теперь, спустя несколько лет, исследователи делают еще одно открытие, на этот раз касающееся строительных блоков и механизмов, участвующих во всех биологических процессах.

Секвенирование генома человека дало нам спиралевидные лестницы генетических букв, хранящихся внутри ядер наших клеток. Генетическая информация или ДНК служит важнейшим ресурсом для клетки. Это энциклопедия различных машин, задач и инструкций. Эти инструкции остаются защищенными внутри ядра. Вместо того, чтобы вырывать страницы из этого руководства по эксплуатации, клетки копируют небольшой фрагмент этих инструкций для выполнения задач. Когда клетке нужно построить машину или выполнить какую-то функцию, страница или ген, содержащие соответствующие инструкции, копируются и экспортируются на клеточную фабрику. Здесь читают эти инструкции, подвозят стройматериалы для постройки машины.

Строительным материалом всех белков являются аминокислоты. На основе цепочки инструкций, скопированных с ДНК, формируется цепочка аминокислот. Эти цепи складываются в машины. Только по генетической последовательности мы можем предсказать последовательность аминокислот в белке. Однако гораздо сложнее предсказать, как эта струна свернется в функциональную машину. В настоящее время исследователи выполняют трудоемкую и дорогостоящую задачу рентгеновской кристаллографии или электронной микроскопии для получения этих структур. Однако новый искусственный интеллект DeepMind открывает возможность более эффективного решения многих из этих структур.

Каждые два года десятки команд собираются для участия в конкурсе Критическая оценка предсказания структуры. Некоторые белки решаются с использованием традиционных биохимических методов, но их структуры не публикуются. Затем десятки команд соревнуются, чтобы предсказать структуру белка, используя только последовательность аминокислот. В 2018 году алгоритм DeepMind AlphaFold занял первое место, набрав >55 баллов из 100. Однако для точных или полезных прогнозов этим программам необходимо преодолеть порог в 90 баллов — большое достижение в вычислительной биохимии. DeepMind может показаться знакомым, это команда ИИ, которая освоила GO.

Их новый алгоритм AlphaFold2 легко превзошел конкурентов, набрав в среднем около 90 баллов. Их алгоритм разрешил непредвиденные 2/3 белковых структур с точностью, сравнимой с традиционными лабораторными методами.

Когда команды представляют свои белковые структуры, им присваивается номер команды, скрывающий их от судей. В этом году точность их предсказаний заставила их выделиться, и многие люди, как сообщается, догадались, что Team 427 — это DeepMind. Менее чем за час AlphaFold2 смог охарактеризовать некоторые белки, на которые у исследователей ушли десятилетия. Это большой прорыв в плане эффективности и стоимости. Что еще более важно, это показывает, что ИИ способен вычислять белковые структуры. В будущем более совершенные версии алгоритмов ИИ могут повысить их предсказательную силу. Хотя проблема сворачивания белков не решена, AlphaFold2 делает большой скачок в этом направлении.

Существует реальная потребность в идентификации множества различных белков. Многие вирусы (включая SARS-CoV2) и бактерии полагаются на белки для заражения своих хозяев. Выявление структур этих белков дало бы нам много новых целей для разработки терапевтических средств. Если мы знаем, как складываются определенные части белка, мы можем разработать биопрепараты для их нейтрализации.

Согласно текущим базам данных прогнозирования белков, в природе обнаружено более 40 000 000 белков. Учитывая количество микробных видов, которые еще предстоит открыть и секвенировать, это число может быть намного больше. Многие белки, продуцируемые другими организмами, могут выполнять полезные функции для человека. Например, многие антимикробные и противовирусные белки продуцируются различными типами бактерий. Другие белки, вырабатываемые бактериями, могут имитировать наши собственные белки, воздействуя на разные клетки нашего тела — даже на мозг.

Другое важное применение в реальном мире связано с пониманием нашего собственного тела и болезней на беспрецедентном уровне. Многие различные изменения или мутации в нашем геноме вызывают болезни, некоторые из них приносят пользу, а некоторые являются нейтральными. Выяснив, как одна мутация изменяет структуру белка, мы поймем, почему одни из этих форм вызывают заболевание, а другие нет. При многих невылеченных заболеваниях структура белка помогает нам лучше ориентироваться в механизме, участвующем в развитии определенного заболевания. Решая множество различных белковых структур, эти ИИ позволили бы исследователям сосредоточиться конкретно на стратегиях модификации болезни.

Показ ученым всех уровней того, что алгоритмы могут решать множество различных белковых структур, вдохновит новую группу вычислительных биологов и биохимиков. Эти исследователи будут работать над тем, чтобы понять случаи, когда такие ИИ, как AlphaFold2, могут потерпеть неудачу, разрабатывая способы увеличения их недостатков. По сути, этот алгоритм описывает, как сворачивается белок, но не дает нам ответов на вопрос, почему. Тем не менее, как и со многими алгоритмами глубокого обучения, неясно, почему и как они работают. Углубление в эти детали может помочь разгадать эту загадку для всех нас, пытливых умов, добавить в учебники биологии.

Несмотря на некоторые заголовки, утверждающие, что важный аспект биологии решен, эти открытия невероятно интересны. Возможно, на следующем соревновании команда DeepMind сделает еще один масштабный шаг. Эти алгоритмы должны предоставляться как бесплатные важные ресурсы из-за их потенциальной ценности для всех нас.

ИИ в науке и не только

С этими достижениями в вычислительной биохимии мне интересно, какую роль ИИ может играть в нашей повседневной жизни. Как ученый, некоторые аспекты исследований станут проще. Возможно, в дополнение к тому, что традиционные методы определения фолдинга белков устаревают, можно предсказать и другие аспекты исследований. Возможно, в простых бактериальных или дрожжевых системах ИИ сможет виртуально проверять потенциальные химические вещества или лекарства. Вместо интенсивной оценки библиотеки из 1000 соединений с помощью искусственного интеллекта будут выбраны 5 или 10 многообещающих соединений. Эти соединения могут быть лучше охарактеризованы человеком-исследователем, что избавляет от необходимости искать иголку в стоге сена.

ИИ сталкивается с более этическими и практическими проблемами, когда дело доходит до клинической значимости. Споры об эффективности моделей ИИ в медицине продолжаются из-за некоторых ключевых ограничений. Обобщение одной конкретной модели ИИ для заболевания, существующего в спектре, все еще довольно сложно. Понимание и интерпретация результатов этих моделей, а также их влияние являются еще одной ключевой задачей. Кроме того, существуют тревожные этические проблемы, поскольку многие алгоритмы являются расистскими или иным образом предвзятыми. Настало время начать обсуждение экономических, этических и социальных последствий ИИ. Благодаря достижениям в области вычислительной биохимии и исследований лекарственных препаратов в ближайшем будущем эти вопросы станут неразделимыми.