Наука меняется. Раньше научные открытия делались благодаря кропотливому упорному труду исследователей. Однако по мере того, как человечество вступает в эпоху технологического изобилия, компьютеры, в частности ИИ, помогают нам невообразимым образом. Хотя в настоящее время прямое влияние ИИ на науку не создает заметной разницы, в следующем десятилетии мы увидим экспоненциальный рост наших научных исследований. Одним из многих чрезвычайно успешных проектов с использованием ИИ является AlphaFold, проект, призванный произвести революцию в мире ДНК.

AlphaFold — это модель искусственного интеллекта, выпущенная DeepMind в 2020 году, которая может предсказывать структуру белка с учетом последовательности белка; Но что именно это значит? Белки отвечают почти за все задачи в клеточной жизни, включая форму и внутреннюю организацию клеток, производство продуктов и очистку отходов, а также повседневное техническое обслуживание. А в более широком масштабе белки помогают восстанавливать и строить ткани тела, обеспечивают протекание метаболических реакций и координируют функции организма. Можно с уверенностью сказать, что без белков наш организм не функционировал бы.

Каждый белок имеет уникальную структуру, также известную как то, как он складывается. На самом деле, наиболее важной частью понимания белков является то, как он складывается. Это связано с тем, что структура влияет на то, как белок взаимодействует с окружающей средой, тем самым определяя функцию белка.

Теперь, когда мы знаем, почему важны белки и, в частности, их структура, давайте разберемся, что влияет на то, как белки сворачиваются? Белок на самом деле представляет собой цепочку аминокислот. Эти аминокислоты взаимодействуют друг с другом многими способами, включая водородные связи, гидрофобные взаимодействия, электростатические взаимодействия и взаимодействия Ван-дер-Ваальса. Все эти взаимодействия влияют на структуру белка. Следовательно, если мы сможем смоделировать эти взаимодействия между аминокислотами, мы, несомненно, сможем предсказать структуру белка. Это то, чего добилась AlphaFold.

Способность AlphaFold точно предсказывать структуру белков по их аминокислотной последовательности является огромным благом для наук о жизни и медицины. Если мы знаем форму белка, мы можем сказать, вызовет ли он болезнь или вылечит ее. Мы можем определить, является ли это белком вируса, грибка или вредоносной бактерии, а также найти способ его уничтожить. Например, вакцина против коронавируса атакует трехмерную белковую структуру шипов вируса. Если мы знаем структуру белка, мы можем даже проверить, как вирусы взаимодействуют с конкретным лекарством в компьютерном моделировании, даже не экспериментируя с человеком или животным. Это значительно улучшит поиск лекарств, а также наше понимание многих болезней.

До AlphaFold мы знали трехмерные структуры лишь около 17% из примерно 20 000 белков в организме человека. Те белковые структуры, которые нам были известны, десятилетиями кропотливо разрабатывались в лабораторных условиях с помощью утомительных экспериментальных методов, таких как рентгеновская кристаллография и ядерный магнитный резонанс, которые требуют многомиллионного оборудования и месяцев или даже лет проб и ошибок. », стоимостью 120 000 долларов за открытие структуры одного белка.

А на рисунке ниже показано, что результат AlphaFold не сильно отличается от результатов эксперимента, хотя и ничего не стоит.

Рисунок 1

На рисунке 1 мы видим прогноз AlpaFold, наложенный на результат эксперимента.

Результаты AlphaFold также значительно превосходят конкурентов. Использование AlphaFold глубоких нейронных сетей означает, что они на самом деле не моделируют каждое взаимодействие, а находят общую нелинейную математическую связь между цепочкой аминокислот и тем, как она складывается. Поскольку эти отношения обучаются на тысячах точек данных, необходимость моделирования взаимодействий (с обучением с подкреплением) не требуется, поскольку все они представлены в этой «общей» формуле. Ниже на Рисунке 2 мы видим, что AlphaFold 2 достигает среднего показателя точности 87,0%.

Рисунок 2

AlphaFold не только разработала эту модель, но и предсказала трехмерные структуры практически всего (98,5%) человеческого протеома. Из них 36% прогнозируются с очень высокой точностью, а еще 22% прогнозируются с высокой точностью. И все это было выложено для общего пользования. При традиционном методе это стоило бы 43 миллиарда долларов и кто знает, сколько лет. Лучшая особенность AlphaFold — это открытый исходный код. Любой может использовать модель AlphaFold, что позволяет всем, кто работает в области медицины или ДНК, продвигаться равномерно, даже начинающим исследователям. Кроме того, для работы ему не нужен какой-то мощный дорогой компьютер, на самом деле, я даже опробовал систему AlphaFold.

Введите последовательность аминокислот:

MAAHKGAEHHHKAAEHHEQAAKHHHAAAEHHEKGEHEQAHHADTAYAHHKHAEEHAAQAAKHDAHHAPKPH

Вывод структуры белка с помощью AlphaFold:

Я также хотел бы коснуться самой модели ИИ. На рисунке ниже показана модель ИИ, которая, по сути, представляет собой математическое соотношение с набором поворотов и ручек, которые можно слегка изменить, чтобы повлиять на результаты, они называются параметрами. Для обучения системы передается последовательность аминокислот, и система возвращает результат. Затем точность результата рассчитывается путем сравнения с реальным результатом. Далее параметры очень немного настраиваются для изменения точности. Это называется градиентным спуском и выполняется с помощью частных производных функции потерь, а не путем случайной настройки параметров.

Теперь давайте углубимся в слои модели. Первый слой представляет собой сверточную нейронную сеть, которая принимает последовательности аминокислотных остатков и многие функции, включая множественное выравнивание последовательностей эволюционно связанных последовательностей. Затем это выводит матрицу расстояний, в которой строки и столбцы представляют собой положения аминокислотных остатков. Затем выполняется градиентный спуск, о котором мы упоминали ранее. Система AlphaFold 2 фактически заменяет сверточные нейронные сети преобразователями механизмов внимания.

Рисунок 3

Как и следовало ожидать, у этой модели есть некоторые ограничения. Один и тот же белок иногда может иметь разные формы. AlphaFold в настоящее время не приспособлен для прогнозирования различных конформаций одного и того же белка или результатов новых мутаций в естественной структуре белка из-за вирусов. Я даже имел удовольствие спросить Пушмита Кохли (руководителя отдела исследований ИИ в DeepMind и проекта AlphaFold), есть ли у DeepMind какие-либо планы по развитию AlphaFold таким образом; к сожалению, это не так.

В заключение, помимо огромных возможностей AlphaFold и добавленной ценности для биологии, он также знаменует собой важный ориентир, в котором ИИ начинает брать верх над научными исследованиями. Наука меняется. Раньше научные открытия делались благодаря кропотливому упорному труду исследователей. Однако по мере того, как человечество вступает в эпоху технологического изобилия, компьютеры, в частности ИИ, помогают нам невообразимым образом. Хотя в настоящее время прямое влияние ИИ на науку не создает заметной разницы, в следующем десятилетии мы увидим экспоненциальный рост наших научных исследований. Одним из многих чрезвычайно успешных проектов с использованием ИИ является AlphaFold, проект, призванный произвести революцию в мире ДНК.