В этой статье я расскажу о последних разработках в этой области.

Искусственный интеллект привлекает к себе много внимания, поскольку он пытается воспроизвести человеческий интеллект для анализа сложных данных вокруг нас. Два основных подмножества ИИ: машинное обучение и глубокое обучение вызвали большой интерес в исследовательском сообществе из-за его жизнеспособного использования в различных областях. В этой статье мы рассмотрим последние достижения в области биоинформатики.

Биоинформатика - это область анализа биологических данных. Основное применение в этой области включает анализ биологической последовательности и молекулярной структуры, в то время как предварительное применение включает моделирование биологических систем.

Искусственный интеллект в биоинформатике включает в себя как фундаментальные, так и клинические исследования с помощью сопоставления биологических последовательностей, межбелкового взаимодействия и функционально-структурного анализа. Этот анализ помогает в разработке и открытии лекарств, а также сложных систем.

Итак, в этой статье мы рассмотрим последние тенденции в области ИИ в биоинформатике:

  1. Определение удаленной гомологии белков на основе двунаправленной долгосрочной краткосрочной памяти, 2018 г. (Ссылка на исходную статью: здесь)
  2. Оценка обучения передаче протеина с помощью TAPE, 2019 (здесь)
  3. Генеративное моделирование структуры белка, 2019 г. (здесь)
  4. Обнаружение удаленной гомологии белков с использованием множественного обучения на основе несходства, 2018 г. (здесь)
  5. Определение удаленной гомологии белков на основе профилей, 2019 г. (здесь)

Что такое белки?

Белки представляют собой линейную цепочку аминокислот. Он кодируется стандартным 25-символьным алфавитом, 20 символов - для стандартных аминокислот, 2 - для нестандартных, 2 - для неоднозначных и 1 - для неизвестных. На протяжении всего обсуждения любой белок x длины L представляет собой последовательность из 20 дискретных аминокислотных символов (x₁, x₂ ……, x₂o)

Пример. «MEEPQSD …… ..DSD» представляет собой последовательность белка из семейства киназ.

Можно ли адаптировать методы, основанные на НЛП, для извлечения полезной биологической информации ???

Обнаружение удаленной гомологии белков на основе двунаправленной долговременной памяти:

Фраза «обнаружение удаленной гомологии белков» означает классификацию белковых последовательностей в их соответствующее суперсемейство путем извлечения важной информации из длинной белковой последовательности (в основном путем анализа структурного сходства рудных последовательностей).

Постановка проблемы сводится к задаче классификации последовательностей на их соответствующие группы (суперсемейства).

Итак, в основном в предлагаемой работе исследователи представили ProDec-BLSTM, сетевую архитектуру, которая состоит из разных уровней: входной уровень, двунаправленный слой LSTM, распределенный по времени плотный слой и выходной уровень. Эта архитектура пытается захватить информацию из каждого скрытого значения двунаправленного LSTM и обработать его. Краткое изложение этого можно найти здесь.

Оценка обучения передаче протеина с помощью TAPE:

Трансферное обучение возникло в области компьютерного зрения и теперь используется в различных других областях, таких как обработка естественного языка (НЛП). Это относится к идее использования знаний, полученных из одной задачи, для решения связанной задачи. Например,

Он пытается собрать различную информацию, включая изучение различных лингвистических функций, таких как структура, синтаксис, грамматика в форме долгосрочных и краткосрочных зависимостей из большого корпуса. Затем он использует эти знания для инициализации и обучения других моделей, работающих над аналогичными задачами НЛП, такими как анализ тональности или резюмирование текста.

Данные о белках - это данные о последовательностях, поэтому исследователи в сообществе биоинформатиков предприняли попытки извлечь информацию из данных о последовательностях белков с помощью передовых методов НЛП. Чтобы облегчить этот прогресс, была введена задача по оценке встраивания белков (TAPE), которая состоит из 5 задач биологического обучения с полууправлением, которые распределены по областям биологии белков. Таким образом, он в основном фокусируется на трех областях биологии белка, таких как предсказание структуры, обнаружение удаленной гомологии и инженерия белка. 5 биологически релевантных задач, которые служат эталоном: прогнозирование вторичной структуры, прогнозирование контакта, обнаружение удаленных гомологий, прогнозирование ландшафта флуоресценции и прогнозирование ландшафта стабильности. Производительность сравнивалась с тремя основными репрезентативными моделями: повторяющейся, сверточной и основанной на внимании. Помимо этих двух различных моделей также использовались.

Генеративное моделирование белковых структур:

Генеративные модели стремятся узнать истинное представление распределения данных, чтобы сгенерированное распределение данных было похоже на исходное. Однако сравнение и изучение истинного распределения данных невозможно. Итак, мы пытаемся изучить модель, представление данных которой похоже на истинные данные. Один из эффективных подходов - это генерирующие состязательные сети (GANS), в которых для достижения этой цели используется сеть генератора и дискриминатора. По сути, это две нейронные сети, в которых генератор пытается сгенерировать естественное изображение, а дискриминатор пытается определить, является ли сгенерированное изображение поддельным или настоящим. Это может быть аналогично сценарию, в котором его можно рассматривать как минимаксную игру, в которой генератор пытается обмануть дискриминатор, генерируя изображение, близкое к исходному изображению, а дискриминатор пытается не обмануть, улучшая свои дискриминаторные способности. Эта модель направлена ​​на достижение равновесия между двумя сетями.

В этой статье GAN используются для создания структуры белка и прогнозирования недостающих участков поврежденной структуры белка. Данные включают использование трехмерной структуры белка, которая кодируется как двумерное попарное расстояние между альфа-углеродом. Это представление не сохраняет информацию о последовательности, однако этой информации достаточно для восстановления структуры. Эти матрицы расстояний называются «картами».

Генерация и проектирование ДНК с использованием глубинных генеративных моделей - это еще одна статья, которая демонстрирует, как GAN могут быть использованы для генерации новых последовательностей, свойства которых, как ожидается, будут лучше, чем те, которые содержатся в наборе данных для обучения белков. (Здесь)

Выявление удаленной гомологии белков с использованием многоэкземплярного обучения на основе несходства:

Задача обнаружения удаленной гомологии включает идентификацию функционального или структурного сходства в данных последовательности белка. Иногда гомологичные белковые последовательности (принадлежащие к одному суперсемейству) показывают очень меньшее сходство последовательностей. Вся задача зависит от того, как было построено представление вектора признаков для белков.

Одним из наиболее широко используемых методов для построения этой функции данных последовательности является N-грамма (k-mers), которая представляет собой короткую подпоследовательность последовательных символов. Таким образом, векторное представление состоит из того, сколько раз словарные N-граммы (аминопоследовательность) встречались в данной последовательности белка. Этот метод вынудил N оставаться маленьким, потому что большее значение N привело бы к более длинному и разреженному представлению.

Например, если значение N равно 2; N-граммы словаря (20 аминокислотных последовательностей) будут состоять из 20 подпоследовательности в векторе признаков. Итак, 20² = 400 таких представлений функций. Следовательно, единичная последовательность белка будет представлена ​​1x20². По мере увеличения значения N размер вектора признаков также будет увеличиваться.

Итак, в этой статье было предложено новое векторное представление, основанное на многоэкземплярном обучении (MIL), которое показало хорошие результаты для дискриминационных методов на основе SVM.

В случае проблемы MIL объекты представлены пакетом, который состоит из набора векторов признаков. Затем метка присваивается всему пакету, а не отдельным векторам признаков. Предполагается, что мешок считается положительным, если внутри мешка присутствует какой-либо след (по крайней мере) положительного экземпляра.

Итак, здесь последовательность белка, как полагают, представляет собой мешок из фрагментов размера N. Этот метод дает 2 преимущества:

  1. Этикетка для конкретной сумки определяется небольшим набором соответствующих экземпляров. Гомология между двумя белками прямо пропорциональна наличию небольшого набора информативных фрагментов.
  2. Он не требует, чтобы размер N-мер был небольшим, поскольку нет ограничений на размер подпоследовательности.

Обнаружение удаленной гомологии белков на основе профиля:

Эта задача классификации вращается вокруг построения более информативного представления вектора признаков для данных последовательности белка. В этой статье авторы попытались улучшить метод на основе профиля, который использует матрицу частот, зависящих от положения (PSFM) для извлечения признаков. В этом современном состоянии предложены методы удаления шума из профиля (набор функций, извлеченный из PSFM) путем удаления низкочастотных аминокислот, который называется профилем максимальной частоты (TFP). Теперь в дополнение к этому преобразованному профилю применяется ковариация автокроссирования (ACC), чтобы сделать длину белкового вектора одинаковой.

PSFM - это матрица, содержащая частоту появления каждой стандартной аминокислоты «i» в столбце «j», который представляет последовательность данного белка длиной L.

Таким образом, проще говоря, данные в этой области можно рассматривать как данные последовательности, несущие некоторую контекстную информацию, относящуюся к биологической жизни.

Заключение

В этом посте я попытался привлечь внимание читателей к тому, как машинное обучение и глубокое обучение можно распространить на области биоинформатики. Надеюсь, мне удалось объяснить, насколько данные биологической последовательности похожи на данные последовательности, используемые в обработке естественного языка, и, следовательно, аналогичные методы могут быть применены и в этой области. Основная цель заключалась в том, чтобы ознакомить читателей с текущими исследованиями в этой области.

В следующем посте я хочу подробнее изучить работу и детали (https://arxiv.org/abs/1906.08230)

использованная литература

[1]: Ли С., Чен Дж. И Лю Б. Обнаружение удаленной гомологии белка на основе двунаправленной долговременной краткосрочной памяти (2018)

[2]: Рошан Рао, Николас Бхаттачарья, Нил Томас, Ян Дуан, Си Чен, Джон Кэнни, Питер Аббил и Юн С. Сонг, Оценка обучения передаче белков с помощью TAPE (2019)

[3]: Намрата Ананд и По-Су Хуанг, Генеративное моделирование белковых структур (2019)

[4]: Антонелли Менси, Мануэле Бисего, Пьетро Ловато, Марко Луг и Дэвид М. Дж. Такс, Обнаружение удаленной гомологии белков с использованием множественного обучения на основе несходства (2018)

[5]: Цин Ляо, Мингюэ Го и Бинь Лю, Дистанционное обнаружение гомологии белков на основе профилей (2019)

[6]: Элвис, Краткое введение в трансферное обучение для НЛП