Недооцененные статьи по машинному обучению для приложений дизайна белков

CB Insights (ведущее издание в области технологий и стартапов) включило ProteinQure в число ведущих компаний по искусственному интеллекту в сфере здравоохранения на 2020 год. Мы подумали, что можем отпраздновать это, выделив некоторые методы, которые ProteinQure использовал для создания новых белков для терапевтических целей. .

Машинное обучение (ML) создает непрерывную лавину статей, даже если ограничивается областью вычислительной биологии. В ProteinQure мы следим за новейшими академическими разработками и стремимся прагматично применять их в наших проектах. Вот несколько документов, которые мы считаем «скрытыми жемчужинами» с уникальными идеями, которые вы, возможно, пропустили.

Глубокое обучение ускоряет моделирование молекулярной динамики

В большинстве случаев для глубокого обучения требуются огромные объемы обучающих данных. Получение этих обучающих данных для открытия лекарств обычно обходится дорого, поскольку требует получения точек данных из экспериментов в мокрой лаборатории. Даже если будет собран огромный набор данных для обучения нейронных сетей, он все равно останется узким местом из-за неспособности нейронных сетей экстраполировать на новые точки данных. Это может быть реальной проблемой при открытии лекарств, поскольку размерность пространства данных увеличивается экспоненциально даже при незначительном увеличении пространства последовательностей для исследования. Невозможно создать набор данных, представляющий полное потенциальное распределение входных данных.

Подходы, основанные на биофизике, такие как моделирование молекулярной динамики (МД), позволяют обойти эту проблему путем прямого моделирования динамики / свойств белка. К сожалению, получение траекторий из МД-моделирования часто требует больших вычислительных ресурсов, особенно для больших временных масштабов.

Чтобы ускорить моделирование MD, подмножество возможных траекторий выбирается как способ «обмануть» моделирование каждого временного шага траектории. Выборка выполняется до тех пор, пока не будет найдена приемлемая траектория, что может занять много времени.

В Нейронных сетях, основанных на вариационно-расширенной выборке (NN-VES) группа из ETH Zurich предлагает изменить эту траекторию выборки с помощью машинного обучения. Он делает это, предполагая, что система может быть описана в терминах более простого набора переменных, называемых коллективными переменными. Желаемое состояние моделируется как распределение вероятностей по этому набору коллективных переменных.

Оптимизируя целевое распределение, NN-VES может находить приемлемую траекторию намного быстрее, чем обычное моделирование MD.

Изучение представления белков за пределами простых структурных описаний

Модели машинного обучения сильно зависят от формата данных обучения. Каждая часть информации, включенная в представление данных, называется функцией. Мы должны решить, как «описать» наших потенциальных терапевтов. При открытии лекарств обычным решением является использование простого одномерного описания молекулы (например, ее последовательности) или вектора физико-химических свойств, выбранных заранее. Но это может быть как слишком упрощенным (последовательности), так и произвольным (какие атрибуты). Вместо этого нам нужно описание, которое может отражать сложность взаимодействий в структуре молекулы, но не обязательно требует человеческого анализа. Одним из решений этой проблемы является использование машинного обучения для обнаружения представления из необработанных данных. Этот подход известен как обучение представлению и часто приводит к более высокой производительности, чем представления, созданные вручную. Наиболее известен приложениями для обработки естественного языка (например, GPT2), сейчас он исследуется для открытия новых лекарств.

Унифицированная рациональная белковая инженерия с обучением глубокому представлению только по последовательностям (UniRep) была разработана командой из Гарварда и использует немаркированные данные о последовательности белков для изучения широко применимого представления белков. Эти представления будут затем использоваться в последующих задачах, таких как прогнозирование стабильности белка и прогноз вторичной структуры. Эта статья продемонстрировала превосходство UniRep в различных вышеупомянутых последующих задачах с помощью обширных экспериментов. Хотя UniRep ограничен различными факторами (смещение выборки в данных последовательности, длительность обучения, размер и охват баз данных последовательностей), он обеспечивает новый взгляд на конструирование белков непосредственно из последовательности.

Эти новые представления позволяют обучать более точной последовательности моделей свойств.

На рисунке ниже показаны некоторые вопросы, на которые ProteinQure пытается ответить с помощью этих методов.

Эволюционные паттерны намекают на структуру

Когда белки происходят от общего предка или происхождения, некоторые структурные и функциональные свойства сохраняются. Таким образом, существует основная закономерность в том, как последовательности мутируют или развиваются. Этот эволюционный паттерн намекает на наличие внутрипоследовательных взаимодействий между аминокислотами.

Коррелированные мутации и остаточные контакты в белках представляют собой простой и интуитивно понятный способ понимания этого механизма путем изучения корреляции мутаций между последовательностями в пределах семейства белков. Другими словами, он вычисляет оценку для каждой пары позиций, которая показывает, насколько распространена эта пара аминокислот. Эта корреляция затем связывается с возможным контактом остатков в трехмерной структуре белка. Они предполагают, что аминокислоты, соответствующие высококоррелированным мутациям, вероятно, взаимодействуют друг с другом в трехмерном пространстве.

Таким образом, мы можем использовать эволюционно консервативные пары аминокислот, чтобы помочь предсказать трехмерную структуру.

Эта гипотеза была проверена на семействах белков с известной структурой и достигла разумной точности. Это особенно ценно, поскольку позволяет лучше понять трехмерную структуру белка. Особенно с учетом того, насколько сложно сейчас предсказать белковые структуры, не говоря уже о том, когда эта статья была опубликована в 1994 году!

Новые структурированные представления для генерации малых молекул

Разработка и создание новых молекул с определенными химическими свойствами - сложная проблема. Как упоминалось выше, мы можем представить молекулу с разных точек зрения, например Улыбается строки или молекулярный граф. Хотя существует большая работа по созданию молекул из линейных цепочек SMILES, это представление не может уловить важные молекулярные особенности. С другой стороны, методы, основанные на графах, показали, что создание новых молекул посредством постепенного расширения на атомном уровне улучшит точность и достоверность генерируемых молекул. Однако выбор начальных точек для молекулярных графов затруднен и может вызвать образование химически недействительных молекул.

Вариационный автоэнкодер Junction Tree для генерации молекулярных графов предлагает новую модель генерации молекулярных графов с использованием архитектуры глубокого нейронного кодера-декодера. Этот подход сначала генерирует дерево соединений, которое представляет собой особый вид графа, как каркас молекулярного графа. Затем он объединяет различные допустимые строительные блоки (например, словарный запас на языке) для создания нового графа. В этой статье оценивается идея дерева соединений на нескольких наборах данных при различных сценариях и показано, что этот подход позволяет генерировать новые молекулы с действительными химическими свойствами.

Эти подходы позволяют нам создавать новые молекулы на основе заданного набора данных о допустимых химических молекулах.

Направление открытий через множество экспериментов

Оптимизация пептидов для конкретных биохимических функций является критическим шагом на пути открытия и разработки лекарств. Обычно это осуществлялось в основном с помощью методов слепого / неконтролируемого скрининга, таких как фаговый дисплей и случайный мутагенез. Эти подходы дороги и неэффективны. Обнаружение de novo пептидных субстратов для ферментов с помощью машинного обучения демонстрирует, как можно использовать ML для оптимизации пептидов.

Используя машинное обучение, чтобы предложить, какие пептиды тестировать, вы можете более эффективно проводить эксперименты для получения эффективных результатов.

В отличие от предыдущих подходов к машинному обучению, в которых для подтверждения экспериментально оцениваются только анализы с наилучшим прогнозом производительности, представленная работа в этой статье использует итерационный подход для оптимизации пептидов. Оптимизация начинается с начального набора пептидов. Затем компонент ML рекомендует синтезировать следующий набор пептидов и экспериментально исследовать их на предмет совпадений. Эти оцененные пептиды затем возвращаются в модуль ML, и процесс повторяется до тех пор, пока не будет получен оптимизированный набор пептидов. Молекулы заметок, предложенные модулем ML, могут быть попытками достижения конечной цели или точками данных, которые имеют высокий информационный контент для улучшения модели.

Особая благодарность Седиху, Сиду и Хамиду за отправку резюме статей и работу со мной, чтобы сделать их понятными.