Идентификация, проектирование и рекомендация последовательностей ДНК/РНК с использованием машинного обучения

Введение в ИИ в синтетической биологии

Искусственный интеллект применяется в различных областях, таких как розничная торговля, безопасность и наблюдение, а также здравоохранение. Однако исследования по применению ИИ в синтетической биологии ограничены. Синтетическая биология – это область исследования, в которой используются принципы инженерии для разработки новых биологических систем, устройств или перепроектирования существующих биологических систем, существующих в природе. Чтобы полностью понять применение искусственного интеллекта в синтетической биологии, необходимо понимать различные типы машинного обучения.

Краткое объяснение машинного обучения/глубокого обучения

Машинное обучение (МО) и глубокое обучение (ГО) — это ответвления искусственного интеллекта (ИИ), которые расширяют возможности машины имитировать разумное поведение человека. Например, человеческий мозг теперь смотрит на наш телефон и сразу понимает, что это телефон. Почему? Мы видели телефоны на протяжении всей нашей жизни, поэтому мы научились ассоциировать физический объект со словом. Точно так же компьютеры «изучают» набор данных несколько раз, чтобы делать точные прогнозы и классификации. Существуют различные типы машинного обучения, которые применяются для разных вариантов использования.

Существует три основных типа машинного обучения: с учителем, без учителя и подкрепление.

  1. Обучение с учителем основано на данных, которые помечены для прогнозирования следующего результата. Цель тестовых данных — измерить, насколько точно алгоритм будет работать с немаркированными данными.
  2. Обучение без учителя определяет «кластеры» в данных и соответствующим образом классифицирует точки данных. Например, если на графике есть 10 точек в правом верхнем углу графика и еще одна группа из 10 точек в левом нижнем углу графика, программа способна различать разные типы данных даже хотя точки данных не помечены.
  3. В обучении с подкреплением модель машинного обучения учится на своих ошибках в прошлом методом проб и ошибок. Обучение с подкреплением использует награды и наказания в качестве сигналов для положительного и отрицательного поведения в рамках модели. Хотя обучение с подкреплением может показаться похожим на обучение с учителем и без учителя, основная цель состоит в том, чтобы найти подходящую модель, которая максимизирует общее вознаграждение агента.

Текущие проблемы синтетической биологии и вмешательства ИИ

Одной из основных проблем синтетической биологии является то, что она может непреднамеренно воссоздавать известные патогенные вирусы или производить токсичные биохимические вещества. Из-за этого может быть сложно безопасно протестировать системы синтетической биологии перед их внедрением. Искусственный интеллект можно использовать для проектирования и оптимизации биологических систем путем выявления наиболее перспективных комбинаций генетических компонентов. Делая это, алгоритм ИИ может предсказать, как система синтетической биологии будет вести себя в различных средах. В частности, ИИ можно использовать для разработки наиболее оптимальной последовательности РНК для складывания в определенную структуру — алгоритм машинного обучения сможет разработать последовательность РНК для выполнения определенной биологической функции. Это будет иметь огромное значение для биомедицинских исследований, поскольку лаборатории смогут манипулировать последовательностями РНК, используя более безопасные и точные методы.

Сбор данных

Так как же лаборатории получают данные, необходимые для моделирования систем синтетической биологии? Чтобы спроектировать и смоделировать систему синтетической биологии, лаборатории должны знать трехмерную структуру самой системы, чтобы предсказать ее поведение. Существует два основных способа, с помощью которых лаборатория может предсказать трехмерную структуру in-silico для РНК, ДНК и белков: спектроскопия ядерного магнитного резонанса (ЯМР) и рентгеновская кристаллография. Эти два метода имеют решающее значение для моделей вычислительной синтетической биологии, поскольку они позволяют ученым проектировать и предсказывать поведение молекулярных последовательностей и структур путем моделирования их структуры для изучения их функций.

Основы ЯМР

ЯМР использует присущие магнитные свойства определенных атомных ядер, чтобы выявлять структуру, концентрацию и поведение молекул в твердых или жидких образцах. Биологический образец помещают в бутыль и помещают между двумя магнитами. Затем по нему воздействуют электромагнитными импульсами в радиочастотном (РЧ) диапазоне. Радиочастота специально настроена на ядра, которые изучаются в образце. Ядра поглощают энергию электромагнитного импульса и переходят в более высокое энергетическое состояние. После окончания импульса ядро ​​релаксирует обратно в более низкое энергетическое состояние, высвобождая при этом энергию. Прибор ЯМР повторяет этот процесс несколько раз, чтобы получить сильный сигнал и минимизировать внешний шум. Затем прибор ЯМР выполняет преобразование Фурье (FT) для сигналов, чтобы показать отдельную радиочастоту, из которой состоит составной сигнал. FT — это преобразование, которое преобразует функцию в форму, описывающую частоты, присутствующие в исходной функции. Эти частоты составляют окончательный спектр ЯМР, который анализируется, чтобы выявить поведение молекулы.

Однако спектр ЯМР биомолекул с большой молекулярной массой очень сложен и может быть труден для интерпретации. ЯМР также требует большого количества чистых образцов для достижения понятного отношения сигнал/шум.

Основы рентгеновской кристаллографии

Данные рентгеновской кристаллографии можно использовать для выявления структуры вещества на атомном уровне. Этот метод заключается в воздействии рентгеновских лучей на кристаллизованный образец молекулы, обычно с помощью рентгеновской камеры. Полученное изображение показывает картину дифрагированных рентгеновских лучей, когда они проходят через кристалл. Исходя из этого, ученые могут визуально отображать трехмерную молекулярную структуру, что делается с помощью компьютерной программы.

Однако основным недостатком этого метода является то, что образец должен быть кристаллизуемым. Кристаллизация биологических макромолекул с высокой молекулярной массой может быть затруднена; в частности, мембранные белки сложнее кристаллизовать, поскольку они имеют неблагоприятный уровень солюбилизации.

Основы проектирования РНК и ДНК

Дизайн ДНК и РНК — основа для создания синтетических тканей. Это основные этапы разработки гРНК и ДНК для синтетических систем.

Направляющая РНК (гРНК) — один из основных типов РНК, используемых для редактирования генов и синтетической биологии. Направляющие РНК используются для удаления, вставки или изменения целевой РНК или ДНК. Есть три вещи, которые должны быть определены для разработки гРНК:

  1. Целевой регион или ген
  2. Версия белка Cas9, которая будет использоваться для редактирования генов (включая распознаваемые последовательности PAM)
  3. промотор, который будет использоваться для экспрессии гРНК in vitro или in vivo.

Промотор – это участок ДНК перед геном, где белки (например, РНК-полимераза и факторы транскрипции) связываются, чтобы инициировать транскрипцию этого гена.

На последнем этапе транскрипции образуется молекула РНК, которую можно дублировать, изменять и использовать для создания синтетических тканей и систем.

ДНК представляет собой двойную спираль из двух полимеров, которая несет генетические инструкции для развития, функционирования, роста и размножения организмов и вирусов. Существует пять основных шагов проектирования ДНК.

  1. Определить цели проекта
  2. Создайте последовательность
  3. Синтезировать олигонуклеотиды (короткие синтетические нити ДНК)
  4. Собрать олигонуклеотиды в линейные фрагменты и более крупные конструкции (если применимо).
  5. Проверить и протестировать последовательность фрагмента гена или клонированного продукта

В целом проектирование нитей РНК и ДНК является основой синтетической биологии и создания искусственных белков и тканей.

Так как же машинное обучение использует синтетически созданные ДНК/РНК?

Глубокое обучение с подкреплением можно использовать для обучения сети последовательному проектированию всей последовательности РНК с заданной целевой структурой. Как только заданная целевая структура введена в программу, модель, основанная на обучении с подкреплением, может разработать последовательность РНК на основе структуры и функции мишени. Использование машинного обучения для создания последовательностей РНК очень полезно, поскольку позволяет ученым просматривать и тестировать синтетические биологические системы в лабораторных условиях, прежде чем внедрять их в человека. Модели глубокого обучения способны выполнять все этапы проектирования ДНК и РНК, перечисленные в предыдущем разделе, на основе данных ЯМР и рентгеновской кристаллографии.

Применение синтетически созданных клеток для таргетной терапии рака

Синтетическая биология позволяет перепрограммировать бактерии в качестве «умных агентов» для целенаправленного воздействия на опухоли и локально высвобождать противораковые препараты с строгим контролем. Эти разработанные методы лечения рака на основе иммунных клеток показали высокую эффективность при В-клеточных злокачественных опухолях (которые часто приводят к лимфоме). Благодаря этим достижениям в области синтетической биологии врачи и исследователи могут персонализировать планы лечения для каждого пациента на основе его генетического кода. Они могут нацеливаться на определенные мутации ДНК в самом раке, чтобы позволить собственной иммунной системе пациента атаковать раковые клетки.

Тематическое исследование | Обучение с подкреплением для дизайна РНК

В июне 2018 года исследователи из Стэнфордского университета использовали обучение с подкреплением для обучения модели машинного обучения дизайну РНК. Основная функция молекулы РНК определяется структурой, в которую она складывается (которая определяется содержащимися в ней нуклеотидами). Многие из современных инноваций, касающихся использования искусственного интеллекта в синтетической биологии, сосредоточены на моделировании РНК, поскольку она обладает гораздо большей структурной гибкостью и более разнообразными функциями (аналогично белкам). Чтобы разработать молекулу РНК для выполнения определенной функции, необходимо решить проблему сворачивания РНК: при заданной целевой структуре вычислительная модель должна создать последовательность РНК, которая складывается в целевую структуру. Вычислительная модель смогла предсказать правильную последовательность и поведение молекулы РНК с помощью метода предсказания структуры in-silico.

Заключение + Дальнейшие мысли

ИИ может стать прорывным и инновационным решением в области синтетической биологии. Однако синтетическая биология стала популярной темой в биоэтике. Одна из основных этических проблем синтетической биологии заключается в том, что она может привести к созданию организмов, которые находятся между живыми существами и машинами. В будущем, возможно, потребуется ввести правила для определения порога, при котором человек должен прекратить генетическое редактирование живого организма. Несмотря на эти этические проблемы, синтетическая биология может спасти жизни миллионов пациентов сегодня и многих других в будущем.

Ресурсы

  1. Машинное обучение: https://www.researchgate.net/publication/354960266_Machine_Learning_Techniques_for_Personalised_Medicine_Approaches_in_Immune-Mediated_Chronic_Inflammatory_Diseases_Applications_and_Challenges
  2. ЯМР: https://www.nanalysis.com/nmready-blog/2019/6/26/what-is-nmr-spectrography-and-how-does-it-work
  3. Рентгеновская кристаллография: https://mp.bmj.com/content/53/1/8
  4. Рентгеновская кристаллография: https://www.news-medical.net/life-sciences/What-is-X-ray-Crystallography.aspx
  5. Дизайн РНК: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5014588/
  6. Дизайн РНК: https://openreview.net/pdf?id=ByfyHh05tQ
  7. Дизайн ДНК: https://www.azenta.com/blog/beginner-guide-artificial-dna-synchronous
  8. ДНК-олиго: https://www.thermofisher.com/blog/behindthebench/what-is-an-oligo/
  9. Пример использования обучения с подкреплением для проектирования РНК: https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006176
  10. Инженерные принципы синтетической биологии для лечения рака: https://aacrjournals.org/cancerimmunolres/article/10/1/6/674674/Engineering-Principles-for-Synthetic-Biology
  11. Разработка методов лечения рака с помощью синтетической биологии: https://pubmed.ncbi.nlm.nih.gov/30837696/
  12. Программирование синтетических клеток для лечения рака: https://pubs.acs.org/doi/10.1021/acssynbio.1c00631
  13. Биоэтика в синтетической биологии: https://jme.bmj.com/content/36/11/687