Ознакомьтесь с этой новой работой, которая упрощает доступ ко всем возможностям AlphaFold2 за счет интеграции ее с мощным устройством сопоставления последовательностей белков MMseqs2.

Благодаря интеграции AlphaFold2 с набором MMseqs2 для вычисления множественных выравниваний последовательностей, первая формальная версия ColabFold - как назвали ее авторы - позволяет пользователям максимально эффективно использовать AlphaFold без каких-либо аппаратных или программных нагрузок: прогнозирование структуры мономерных белков и их гомо- и гетерокомплексов, уточняя их с помощью моделирования молекулярной динамики и оценивая их с помощью показателей, которые прогнозируют качество модели.

Я уверен, что вы читали об AlphaFold в конце 2020 года, когда он выиграл конкурс CASP14 по моделированию белковых структур, и в июле 2021 года, когда были выпущены рецензируемая статья и модель ИИ. Если нет, или если вы хотите обновить, что такое белковые структуры, почему биологи десятилетиями молились о программах, которые точно предсказывали бы их, и как AlphaFold работает и работает, то проверьте эту историю и эту, а затем вернитесь сюда.

В этой новой статье представлены самые свежие новости, основанные на только что опубликованном препринте.

Содержание

Эта история основана на препринте, только что опубликованном в bioRxiv, который формально описывает инструмент, получивший название ColabFold под девизом Сделать сворачивание белков доступным для всех (который я бы скорее назвал Сделать современное моделирование структуры белков доступным для всех).

Созданный Милотом Мирдита из Института биофизической химии Макса Планка в Германии, Сергеем Овчинниковым из Гарвардского университета в США и Мартином Штайнеггером из Сеульского национального университета в Южной Корее, ColabFold представляет собой набор записных книжек Google Colab, созданный на основе ранних прототипов, которые позволять пользователям, не имеющим ничего, кроме компьютера, подключения к Интернету и бесплатной учетной записи Google, выполнять прогнозы структуры белков с использованием новейших передовых технологий машинного обучения на оборудовании, предоставленном Google; в дополнение к преимуществам нескольких оптимизаций, которые сокращают время выполнения без ущерба для качества результатов, и использования современного инструмента для быстрого создания множественных выравниваний последовательностей белков, которые, как я объяснял в других статьях, важны для обеспечения точных результатов.

Точнее, ColabFold позволяет пользователям запускать AlphaFold2 или RoseTTAFold (академическая программа на основе искусственного интеллекта, разработанная лабораторией Бейкера, одного из академических лидеров в области предсказания структуры белка), которая появилась после CASP14, поэтому формально она еще не оценивалась, но очевидно, работает близко к AlphaFold2) в сочетании с быстрой генерацией множественного выравнивания последовательностей программой MMseqs2. Пользователи также могут загружать свои собственные выравнивания, что может быть удобно для очень сложных белков или семейств белков, или для выравниваний, полученных на основе проприетарных данных, таких как проекты метагеномики.

Оптимизированная генерация выравнивания последовательностей белков с помощью MMseqs2 улучшает модели и сокращает время выполнения

Как широко показано в документах CASP за последние годы (см., Например, мою рецензируемую оценку CASP13), ключевым моментом для производительности всех этих методов является подсчет с огромным множественным выравниванием последовательностей, богатым количеством последовательностей, которые: в идеальном случае равномерно покрыть весь целевой белок. Таким образом, первоначальная компиляция выравнивания имеет решающее значение. Это еще больше усложняет то, что типичные базы данных белковых последовательностей содержат от миллионов до миллиардов последовательностей, но, конечно, только очень маленькие подмножества из них соответствуют белкам одного и того же структурного семейства, которые хотят показать при множественном выравнивании последовательностей. Именно здесь на помощь приходит компонент MMseqs2 ColabFold.

MMseqs2 от Мартина Стейнеггера и Йоханнеса Сёдинга - это программа для чувствительного поиска последовательностей белков внутри огромных последовательностей дабатаз. Я не буду вдаваться в подробности, но статья с описанием MMSeqs2 может быть интересна специалистам по данным, поскольку основная цель программы - ускорить поиск последовательностей. ColabFold выполняет программу MMseqs2 через API-вызовы выделенного сервера. Авторы оптимизировали размер и вариабельность белковых последовательностей, содержащихся в их базах данных последовательностей, так что, выполняя программу несколько раз итеративно, они могут производить обширные, информативные, но поддающиеся контролю сопоставления. В препринте авторы фактически показывают, что эти множественные выравнивания последовательностей, произведенные MMseqs2, приводят AlphaFold 2 к более точным предсказаниям, чем те, которые он получает посредством своих индивидуальных множественных выравниваний последовательностей, и выполняется примерно на порядок быстрее.

Помимо простого моделирования мономерных «изолированных» белков

Подавляющее большинство белков работают не как изолированные молекулы, а как комплексы либо сами с собой (так называемые гомодимеры, гомотримеры и т. Д., Или гомоолигомеры в целом), либо с другими белками (называемыми гетеродимерами, гетеротример и др.). Основная оценка, когда было обнаружено, что AlphaFold2 «побеждает» в CASP14, заключалась в моделировании структур белков сами по себе, но были также некоторые признаки того, что AlphaFold2 также правильно моделирует белковые комплексы. Это было дополнительно исследовано в первых записных книжках Google Colab Минкьюнгом Беком и Йошитакой Мориваки, а затем авторами ColabFold, которые в конечном итоге интегрировали эту возможность в выпущенные ноутбуки. Таким образом, пользователи ColabFold могут легко моделировать изолированные белки, а также их гомо- и гетерокомплексы. Для гетерокомплексов сложно провести выравнивание, но авторы ColabFold уже справились со всей этой нагрузкой, создав очень простой интерфейс, позволяющий пользователям просто отмечать состояния олигомеризации и вводить различные последовательности задействованных белков.

Примечательно, что AlphaFold не может сам по себе определить, является ли белок мономерным, гомодимерным, гетеродимерным по отношению к другому белку и т. Д. Эта информация иногда известна из биохимических или биофизических экспериментов, и в этом случае она используется в качестве входных данных. Если по этому поводу нет никаких подсказок, то пользователям, вероятно, следует выполнить прогнозы в разных режимах и критически сравнить результаты.

Ароматизаторы для непрофессионалов и опытных пользователей

Как описано на официальной странице GitHub здесь, ColabFold включает в себя различные записные книжки, адаптированные для разных типов запусков: один для RoseTTAFold, один для AlphaFold2 в простом режиме, который позволяет запускать только мономерные белки, но с минимальными решениями, которые нужно принимать, а другой для AlphaFold2 с полностью открытыми функциями, которые позволяют полностью контролировать состояния олигомеризации среди других опций, с которыми пользователи могут экспериментировать.

В зависимости от конкретных ресурсов графического процессора, выделяемых при входе пользователей в Google Colab, можно моделировать белки, содержащие от 1000 до 1400 аминокислот, что покрывает значительное количество интересующих белков. Для больших белков или для большей конфиденциальности или удобства пользователи также могут получить сгенерированный код, загрузить всю программу AlphaFold и сгенерированные MMseqs2 выравнивания и запустить все локально с помощью собственных графических процессоров (и даже получить выгоду от кода в записной книжке).

Оценки качества

Эти удобные для пользователя интерфейсы не только предоставляют пользователям модели структур белков, но также и оценки их качеств. Такие оценки важны, я бы сказал, столь же важны, как и сами прогнозы, поэтому они должны быть точнее. Это связано с тем, что конечный пользователь должен знать, какие области моделей являются надежными, т. Е. Похожими на истинную структуру, а какие регионы могут быть плохо спрогнозированы. Когда я был академическим оценщиком во время CASP13 (эта академическая статья), я подчеркивал важность создания трех видов оценок качества: один, который измеряет общее качество всей кратности, другой, который измеряет качество каждой аминокислоты в отдельности, и другой, который измеряет качество относительных расстояний и ориентации между любой парой аминокислот в белке. Блокноты ColabFold предоставляют все три показателя, как я показываю в приведенном ниже примере.

Полная онлайн-визуализация результатов - примерный запуск

Все настраиваемые переменные вводятся в поля довольно богатого графического интерфейса, поверх которого пользователи, конечно же, могут изменять код вручную. Но уютный интерфейс не ограничивается входами. Ноутбуки обладают богатыми графическими выводами, с помощью которых пользователи могут проверять ход выполнения, а в конце проверять все графики оценки качества и даже 3D-модели прямо в браузере.

Посмотрите эти примеры выходных данных из фактического прогона, который я провел с белком, который, как я знаю, является гомодимером, но о структуре которого я мало что могу сказать. После установки необходимого программного обеспечения с первым щелчком в блокноте ColabFold, затем настройки последовательности белка и сообщения блокноту, что я знаю, что мой белок является гомодимером, я сначала запускаю модуль MMseqs2 ноутбука, чтобы получить множественное выравнивание последовательностей, которое блокнот будет передан в AlphaFold на следующем шаге. Выравнивание, возвращаемое MMseqs2, характеризуется этим сводным графиком, где мы хотели бы иметь больше зелено-голубовато-голубых тонов вверху и в идеале более плоский черный профиль, хотя это не так уж плохо:

Как только выравнивание выполнено (в идеале следует загрузить и проверить, достаточно ли хороши его последовательности, но это сложно, потому что MMseqs2 возвращает очень большое количество совпадений), я перехожу к следующему модулю записной книжки, где запускаю AlphaFold2. Пока он работает, ноутбук позволяет мне контролировать каждую из 5 прогнозируемых моделей по мере их производства:

В конце запуска AlphaFold я могу сразу же осмотреть каждую из 3D-моделей благодаря плагину 3Dmol. Обратите внимание, что каждая из 5 моделей имеет средний прогнозируемый балл LDDT, который используется для ранжирования моделей. В этом случае все 5 моделей достаточно хороши по всей последовательности (на что указывают высокие значения pLDDT), и все они очень похожи друг на друга с довольно высоким средним значением pLDDT. Однако графики PAE выявляют некоторую неопределенность в относительном положении двух белковых цепей, составляющих димер (оттенки от белого до красного на графиках Predicted Aligned Error):

Уточнение моделей с помощью моделирования молекул

Модели, созданные AlphaFold или любым другим методом моделирования, могут иметь различные проблемы, такие как столкновения между атомами, невыполненные взаимодействия и т. Д. Когда прогнозируется высокое качество моделей, имеет смысл их дальнейшее улучшение с помощью моделирования молекулярной динамики. Вкратце, в таких симуляциях белковые модели описываются на уровне целого атома, иногда даже с симулированными молекулами воды вокруг, и допускаются колебания в соответствии с реалистичной физикой при заданной температуре и давлении. Цель состоит в том, чтобы устранить любые нереалистичные конфликты, оптимизировать геометрию и удовлетворить взаимодействия и упаковку, особенно боковых цепей аминокислот.

Есть несколько программ, которые позволяют запускать моделирование молекулярной динамики. Пользователи могли загружать все модели и запускать эти симуляции на своих локальных компьютерах со своими собственными методами и конвейерами. Но ColabFold позволяет пользователям запускать моделирование прямо в ноутбуке при наличии уравновешенных версий моделей на месте.

Заключительные слова

Соединение MMseqs2 с AlphaFold2 в Google Colab обеспечивает бесплатный доступ к современным технологиям предсказания структуры белков без необходимости в каком-либо специализированном дорогостоящем оборудовании или установке какого-либо программного обеспечения. Как я обсуждал здесь, это готово произвести революцию в биологии, и самое лучшее то, что она доступна исследователям всего мира бесплатно.

Ссылки на литературу, код и записные книжки

Препринт на bioRxiv: https://www.biorxiv.org/content/10.1101/2021.08.15.456425v1.full.pdf

ColabFold GitHub, со ссылками на все выпуски и прототипы записных книжек: https://github.com/sokrypton/ColabFold

MMseqs2 в Github: https://github.com/soedinglab/MMseqs2

Документ MMseqs2: https://www.nature.com/articles/nbt.3988

Предыдущие мои статьи на AlphaFold2:

  • Ознакомьтесь с этой историей, представляя ранние ноутбуки Colab.
  • И этот, где обсуждается влияние AlphaFold2 на биологию и машинное обучение.

Я увлекаюсь природой, наукой, технологиями, программированием и сделай сам. Биотехнолог и химик в мокрой лаборатории и в компьютерах. Пишу обо всем, что входит в круг моих интересов. Посмотрите мои списки, чтобы узнать больше. Станьте средним участником, чтобы получить доступ ко всем историям, написанным мной и другими авторами, и подпишитесь, чтобы получать мои новые истории по электронной почте (оригинальные партнерские ссылки платформы).