автор Даймон, Стажер отдела биоинформатики NyBerMan

Всем привет! Меня зовут Дима и здесь я хочу поделиться своим небольшим проектом. Речь идет о внедрении инструмента глубокого обучения в предсказание структуры белка. Наслаждаться!

Эта небольшая научно-техническая статья должна начинаться с краткого рассказа о моей первой стажировке

В конце декабря 2021 года мне посчастливилось найти онлайн-стажировку в области биоинформатики. Это была интернатура за заслуги перед NyBerMan Bioinformatics и Let’s Learn Bio-IT School, и основное внимание было уделено, как ни странно (не), расследованию Covid. После нескольких технических собеседований и огромного конкурса (около 1000 участников на 20 мест) я запланировал следующие недели обучения и работы.

Стажировка была разделена на пять частей:

  1. Обзор литературы
  2. Анализ структуры белка
  3. Сравнение результатов классического моделиста с AlphaFold
  4. Молекулярная стыковка
  5. Написание отчета

К сожалению, наш наставник пропустил эту часть AlphaFold из-за ограничений по времени нашей стажировки, но я был слишком взволнован, чтобы просто удалить часть конвейера. Таким образом, я сосредоточился на поиске в Интернете и нашел несколько учебных пособий для выполнения моего анализа.

Поиск и результаты в Интернете

Сначала я нашел репозиторий deepmind/alphafold на GitHub, где в Readme были инструкции по скачиванию и использованию программы. Но на самом деле у меня не хватило памяти, чтобы скачать все реквизиты, поэтому я решил попробовать погуглить еще.

Наконец, я нашел на Medium полезную статью с похожей задачей: Prediction of Corona-virus Spike protein. Это была просто победа, потому что все было ясно, что и как я должен делать. С помощью репозитория GitHub с аналогичными исследованиями и простого руководства по Azure-ML я начал свое исследование.

Этапы конвейера

В первую очередь нужно было собрать данные для построения модели. Это был важный шаг, потому что входные данные влияют на все будущие этапы любого проекта. Я нашел данные о полиморфизме шиповидных белков разных штаммов вирусов. Позже я обнаружил, что для входных данных не следует брать всю последовательность белка, потому что имеют значение только мутации в области связывания. Вот почему я нашел информацию о части белка, соответствующей этому связыванию. Исследователи из Гарвардской справочной лаборатории по ВИЧ в Ботсване (регистрационный номер: EPI_ISL_6752027) описали «мегамутированный» вариант: B.1.1.529. Он содержит 60 мутаций аминокислот из эталонного генома, 37 из которых находятся в белке Spike. И еще, рецептор-связывающий домен (RBD) белка Spike удерживался примерно на остатках с 335 по 525.

Затем соберите несколько последовательностей, содержащих полиморфизмы, и сохраните их в формате fasta. Итак, у нас есть файл sequence.fasta с 4 аминокислотными последовательностями домена, связывающего рецептор SARS-CoV-2.

Запуск

Я использовал блокнот Jupyter для написания сценариев и Машинное обучение Azure для создания программы. Вам нужно установить оба этих кадра, поэтому я опустил здесь один и два.

Совет для профессионалов. Вы можете клонировать мою полную записную книжку из репозитория GitHub, указанного в разделе "Ресурсы" ниже, и открыть ее в JupyterLab.

Прежде всего, загрузите конфигурации рабочей области.

Файл config.json необходимо установить в рабочий каталог вашей рабочей области в Azure.

Следующим шагом является написание нашего сценария запуска. В этой части я не стал изобретать велосипед и скопировал сценарий из Тетради Юпитера Колби Т. Форда.

На этом шаге мы можем перейти к следующему этапу, а именно к построению кластера и определению конфигураций запуска скрипта. Эти части используются по умолчанию в любом эксперименте машинного обучения в рабочей области Azure, поэтому я использовал примеры кода из блокнота.

В каждом эксперименте используются специальные инструменты, библиотеки и т. д. И в данном случае нам нужно было определить эти зависимости. Я скопировал с них образ Docker и ничего нового не изобретал.

Следующим шагом является создание правильных конфигураций для эксперимента. Это важно, потому что параметры определяют скорость, правильность и совместимость. Только при подходящих параметрах будет работать весь эксперимент; в противном случае вы столкнетесь с проблемами.

Идея использовать HyperDrive пришла ко мне после пары неудач в сценарии. HyperDrive — хорошее решение для настройки уникальных моделей машинного обучения.

Конфигурация HyperDrive включает в себя информацию о выборке пространства гиперпараметров, политике завершения, основной метрике, возобновлении из формата, оценщике и целевом объекте вычислений для выполнения эксперимента.

И наконец, я провожу эксперимент. После отправки этой части кода журналы и метрики Azure появятся в записной книжке.

После эксперимента мы можем скачать результаты. Результаты представлены в нескольких форматах, но наиболее актуальным для моего исследования являются макромолекулы .pdb. Хорошая идея — визуализировать эти белки, что я и сделал.

С помощью следующего кода можно запустить визуализатор 3Dmol на python.

Заключение

Инструменты глубокого обучения оказывают значительное влияние на предсказание структуры белка. Такие алгоритмы, как AlphaFold2, могут помочь понять и визуализировать белковые структуры, не представленные в Protein Data Bank. Кроме того, этот приемлемый метод позволяет генерировать тонны новых данных при относительно небольших затратах.
Службы облачных вычислений, такие как машинное обучение Microsoft Azure, значительно упрощают и ускоряют отправку экспериментов. В двух словах, эти сервисы предоставляют исследователям мощный инструмент для решения очень сложных задач, таких как предсказание структуры белка. Таким образом, мой эксперимент дал удовлетворительные результаты для полноценной стажировки. Эта работа может быть использована в аналогичных дальнейших исследованиях и разработках.

Будь человеком, занимайся наукой 🕊

Подпишитесь на наш электронный журнал Loops & Strands, чтобы узнать больше интересных обзоров, статей и протоколов, связанных со всеми областями биологии, связанными с биоинформатикой. Присоединяйтесь к нашему дискуссионному форуму, чтобы общаться с экспертами в области биологии и биоинформатики.

Ссылка и ресурс