Этот пост предназначен для моих коллег-инженеров по машинному обучению, которые интересуются приложениями в медицине, биологии или химии, но не имеют формального образования в этих областях. Я сам был в этом положении; Моя цель В этом посте дать вам краткую отправную точку в области открытия лекарств.

В первой части я в общих чертах обрисовал что машинного обучения в открытии лекарств: его цели и роль в процессе исследования лекарств, типы и качество экспериментальных данных, контрольные показатели и показатели оценки. Это подготовило сцену для данного поста, где мы собираемся более подробно исследовать как реальных подходов. К сожалению, объем не позволяет полностью охватить довольно большой объем литературы; Заранее прошу прощения за то, что субъективно упустил некоторые работы и ссылки. Тем не менее, я собираюсь обсудить ряд прототипов, которые охватывают спектр подходов, которые были разработаны до сих пор. Если вам интересно, не будет окончательного вывода о том, что лучше; как упоминалось в первой части, часто бывает трудно сравнивать результаты между яблоками, и я отсылаю вас к исходным статьям, чтобы составить ваше собственное мнение.

Существует несколько осей, по которым может быть организована экспозиция, например, историческое развитие или тип техники машинного обучения. Еще одна важная категоризация заключается в том, основан ли метод на лигандах или может ли он использоваться для разных целей. Однако мне показалось, что наиболее отличительной характеристикой является характеристика представления данных, которую я возьму в качестве руководящего принципа. Большинство традиционных методов машинного обучения и статистического анализа данных работают с векторами признаков фиксированной размерности. Белки и молекулы, конечно, разного размера, характеризуются структурой связи посредством ковалентных связей и пространственной структурой, которая имеет решающее значение для их взаимодействия. Мы рассмотрим различные схемы химических представлений в порядке возрастания сложности.

Во-первых, небольшое примечание о программном обеспечении: если вы хотите начать играть с молекулярными представлениями и алгоритмами самостоятельно, существует несколько доступных коммерческих пакетов с открытым исходным кодом, которые упрощают чтение, запись, преобразование и обработку химических данных. Openbabel ориентирован на работу с различными форматами файлов и типами данных. Промышленным стандартом де-факто для представления химических структур является формат под названием molfile для отдельных молекул и SDF (файл структурных данных) для нескольких молекул и связанных метаданных. По сути, это формат фиксированной ширины, где каждая строка описывает атом с его координатами или одной связью. Rdkit - это универсальная и популярная библиотека хеминформатики Python, которая предлагает функции для вычисления физических свойств, энергии и вычислений отпечатков пальцев. UCSF Chimera и pymol могут читать файлы SDF и графически визуализировать белки и молекулы.

DeepChem - интегрированная библиотека Python для химии и открытия лекарств; он поставляется с набором реализаций многих алгоритмов машинного обучения, о которых я собираюсь рассказать. С ним связан набор тестов MoleculeNet.

Молекулярные представления

Одномерные дескрипторы

Существует несколько экспериментальных и рассчитанных молекулярных свойств, которые часто используются для грубой классификации: молекулярная масса, растворимость, заряд, количество вращающихся связей, типы атомов, топологическая полярная площадь поверхности и т. Д. Поскольку эти скалярные атрибуты не учитывают структуру связи молекулы, мы будем называть их здесь одномерными.

Задолго до того, как появились компьютеры или машинное обучение, химики интересовались предсказанием скорости химических реакций и физических свойств. Раньше они соответствовали простым регрессионным моделям. Но на самом деле машинное обучение - это действительно восхитительное описание подгонки кривой с помощью компьютеров. С этой точки зрения трудно сказать, когда исторически возникло машинное обучение для химии, поскольку это просто естественное развитие этих ранних количественных моделей.

В некоторых случаях простые модели действительно работают замечательно. Возьмем, к примеру, свойство, называемое коэффициентом разделения, или logP, которое измеряет соотношение растворимостей в двух разных веществах. Возможно, удивительно, что была разработана (почти) химически точная линейная модель (названная вычисляемый logP, или cLogP), которая работает путем суммирования констант, специфичных для атома или фрагмента. для всех составляющих молекулы. Подобные результаты были достигнуты на раннем этапе для прогнозирования определенных скоростей реакции (если вам интересно, поищите уравнение Хамметта).

Эти свойства все еще кажутся далекими от разработки лекарств. С другой стороны, конечно, мы не могли надеяться на осмысленное решение последнего без первого. Кроме того, как упоминалось выше, настоящие лекарства должны удовлетворять ряду других требований, помимо чистой аффинности связывания. Каким бы путем они ни вводились, они должны демонстрировать, по крайней мере, ограниченную растворимость в воде для терапевтической эффективности. Правило 5 Липинского - это удивительно простое практическое правило, которое часто используется для предварительной фильтрации кандидатов в лекарства (чтобы быть химически точным, на самом деле существует 3 правила, содержащие 5, и 1 правило, содержащее 10).

Двухмерные дескрипторы

Когда химики говорят о двумерном дескрипторе молекулы, они имеют в виду учет графика ковалентных и ароматических связей, но не пространственных координат. Это молекула, которую можно нарисовать на листе бумаги. На этом рисунке показана структура иматиниба, таргетного препарата для лечения лейкемии и одного из первых препаратов «рационального дизайна»:

Распространенным способом отображения молекул с различной структурой в вектор дескриптора фиксированного размера является снятие отпечатков пальцев. Было разработано множество таких методов. Некоторые из них основаны на характеристиках, полученных экспертами (например, количестве конкретных типов связей, доноров или акцепторов водородных связей). Но круглые отпечатки пальцев сегодня более широко используются. Здесь каждый атом исследуется вместе с его окрестностями связанных атомов на расстоянии 1, 2,…; вместо заранее определенных химических концепций каждый из таких локальных шаблонов включает один бит в соответствии с хэш-функцией. Типичный размер битового вектора - 1024. Одна из стандартных реализаций - это расширенные круговые отпечатки пальцев (называемые ECFPx, с числом x, обозначающим максимальный диаметр; e, g, ECFP4 для радиуса 2 связей). Сходство между двумя молекулами можно оценить с помощью коэффициента Танимото (эта же метрика известна в других доменах как индекс Жаккара) - количество бит, установленное на единицу в обе молекулы, разделенные на молекулы любой из них. Поиски на подобие базы данных были изначальной мотивацией для создания круговых отпечатков пальцев, так как они могут быть очень эффективно реализованы с помощью побитовых операций. Но позже они также помогли гибко расширить количество молекулярных функций для машинного обучения; вышеупомянутые десятки или около того одних только одномерных свойств, очевидно, идут только до этого.

Такая кодировка обязательно неуникальна - возможно, что две совершенно разные молекулы хешируются в один и тот же отпечаток пальца. Иногда это может сбивать с толку - как машинное обучение может работать, не совершая грубых ошибок? Но есть некоторая защита от этого в том, что, как правило, установлено достаточное количество битов; действительно, хеш-коллизии можно даже рассматривать как долгожданную меру предотвращения переобучения. Аргумент в точности аналогичен введению хеширования функций в контексте машинного обучения для текстовых приложений.

QSAR

Большинство фармацевтических проектов сосредоточены на одной или нескольких задачах одновременно. В этом случае можно предположить, что белок (белки) более или менее фиксирован; как следствие, мы можем ограничиться особенностями молекулы. Начиная с 1960-х и 1970-х годов, химики-медики начали применять такие подходы на основе лигандов, в основном модели линейной и логистической регрессии для одномерных характеристик, подбирая данные экспериментальных анализов для определения эффективности и токсичности потенциальных новых молекул лекарств. Это было названо количественной зависимостью структура-активность (QSAR). Основная предпосылка заключается в том, что ограниченные модификации молекул приводят к небольшим изменениям физических свойств или сродства связывания. Часто это верно, но иногда совершенно неверно, и в этом случае это называют обрывом активности.

На протяжении десятилетий функции отпечатков пальцев были одним из столпов методов QSAR, и они по-прежнему остаются довольно эффективными инструментами. Вариантов и уточнений этого подхода было много. Одно из направлений обобщения направлено на сбор информации от нескольких целей (заранее установленный список белков). Представьте себе матрицу, в которой столбцы помечены белками, а строки - соединениями. Эта таблица явно огромна и может быть немного заполнена экспериментальными данными. Однако определенные семейства белков, такие как киназы, обладают особым и отличительным способом связывания лигандов, и мы можем надеяться на получение и передачу знаний по группе. Эта установка напоминает, например, Совместная фильтрация для рекомендации фильмов, при этом фильмы (соотв. Пользователи) берут на себя роль целей (соединений). В методе profile-QSAR [Martin et al, 2017] сначала используются модели отпечатков пальцев на основе лигандов, специфичные для мишени, для заполнения матрицы; затем он обучает глобальную модель частичных наименьших квадратов поверх матрицы для экстраполяции на ранее невидимые киназы и соединения.

Многозадачные нейронные сети

Похожая схема - матрица мишеней и соединений, представленных в виде отпечатков пальцев - использовалась, когда Kaggle проводил Конкурс молекулярной активности Merck 2012. Это дало толчок исследованиям в этой области, а также привлекло много внимания в популярных средствах массовой информации. Многозадачное прогнозирование здесь означает рассмотрение каждого из заранее определенного количества целевых белков как отдельной задачи. Обратите внимание, что это все еще соответствует определению метода на основе лиганда, поскольку не включены явные особенности белка. Команда-победитель из Университета Торонто использовала полностью подключенную многозадачную нейронную сеть, которая позже получила дальнейшее развитие [Dahl et al, 2014]. Преимущество перед однозадачными моделями состоит в возможности обмена общей информацией. Это аналогично обработке изображений, когда нижние слои сверточной сети учатся распознавать угловые и краевые особенности, которые важны независимо от того, какой тип объектов в конечном итоге необходимо различать. Решение для глубокой нейронной сети имело впечатляющий успех как с точки зрения технического прогресса, так и с точки зрения осведомленности общественности. К сожалению, этот подход не применим на практике напрямую из-за того, как проблема была сформулирована для этого конкурса. Обычно экспериментальные знания о матрице лекарство-мишень крайне скудны; и ничего не может быть выведено из этого для новых целей.

Свертка графиков

На высоком уровне алгоритм генерации круглых отпечатков пальцев можно описать следующим образом. Каждый атом посещается по очереди в произвольном порядке; вычисляется функция его свойств (например, типа атома) и его непосредственного окружения и хешируется в битовый вектор. Отпечатки пальцев для более крупных образов, скажем диаметра 4, могут быть построены двумя такими шагами распространения, с той лишь разницей, что второй шаг действует на выход первого, а не на исходное представление атома. После каждого шага выходные данные для всех атомов совместно хешируются в один и тот же битовый вектор.

Нейронные отпечатки пальцев [Duvenaud et al, 2015] были предложены как дифференцируемое и, следовательно, обучаемое обобщение этого паттерна. Хеш-функция заменена нейронной сетью; окончательный вектор отпечатка пальца представляет собой сумму нескольких атомарных операций softmax, аналогично операции объединения в стандартные нейронные сети. Путем подключения нейронной сети отпечатков пальцев к стандартной полностью подключенной сети представление может адаптироваться к поставленной задаче и отражать характеристики входного химического пространства более плавным и подходящим образом, чем фиксированные заранее заданные круглые отпечатки пальцев.

Эта концепция была усовершенствована несколькими способами. Kearnes et al [2016] применили свертки двумерных графиков к ряду тестов для открытия лекарств на основе лигандов. [Gilmer et al, 2017] признали, что некоторые из таких подходов могут быть описаны единообразно в рамках нейронной передачи сообщений. Это также можно рассматривать как обобщение обычного понимания свертки на графы. Мы связываем вектор внедрения узлов фиксированной размерности с каждым атомом, который может быть инициализирован любыми известными свойствами, такими как тип атома, заряд или количество связей. Затем он получает сообщения от своих соседей. Форма этих сообщений различается, но зависит от состояний соседей, типов границ и, возможно, информации о расстоянии. Векторы состояний атомов обновляются из их предыдущих состояний и полученных сообщений. В некоторых экземплярах ребра также могут иметь обучаемые состояния. Процесс распространения повторяется либо фиксированное количество раз, либо до тех пор, пока не будет выполнен некоторый критерий сходимости. Наконец, одно выходное значение должно быть вычислено из набора векторов состояния атома. В простейшем случае это можно сделать арифметическим сокращением (например, сложением). Чтобы ограничить потерю информации, Kearnes [2016] свернул отдельные компоненты векторов атомов в сглаженные гистограммы. Подход set2set [Gilmer et al, 2017] - еще один более эффективный способ комбинирования. В качестве альтернативы, этап восстановления можно полностью обойти, назначив один уникальный псевдоатом для хранения общего результата.

Автокодировщики

Другое направление исследований, основанное на поиске компактных скрытых представлений. Вложение преобразует дискретные представления молекул в многомерное непрерывное представление и обратно. Впоследствии это может быть использовано для сохранения местного сходства в зависимости от задачи; он также может позволить генеративным сетям проектировать соединения с определенными целевыми свойствами. Скрытые представления могут быть обучены на немаркированных данных неконтролируемым или частично контролируемым образом; часто немаркированные примеры доступны в гораздо большем количестве, чем маркированные. Даже без целевой информации они по-прежнему полезны для передачи информации о фоновом распределении химического пространства приложения.

автокодировщик - это пара кодировщик-декодер, обученная минимизировать ошибку при воспроизведении исходного ввода, то есть пытается изучить функцию идентификации. Ключом к дизайну является информационное узкое место, выученное сжатое представление, которое фиксирует наиболее статистически значимую информацию в данных. В недавней публикации [Kadurin et al, 2016] описан состязательный автокодировщик. Его входные данные представляют собой круговой отпечаток молекулы, которая была протестирована в ходе анализа, вместе с соответствующей концентрацией. Особенность заключается в том, что скрытый слой дополнительно содержит контролируемый узел для наблюдаемой биологической активности. После завершения фазы обучения сеть производит выборку скрытых представлений без ввода для создания функций и концентраций, похожих на отпечатки пальцев. Некоторые из этих выходов с низкими концентрациями (то есть с высокими потенциями) выбираются в качестве ключей для поиска сходства реальных молекул в Chembl. Их хорошая биологическая активность может быть подтверждена химическим путем.

До сих пор мы сосредоточились на круговых представлениях отпечатков пальцев. Давайте переключимся сейчас и посмотрим на ортогональный формализм под названием SMILES (« Упрощенная система молекулярного ввода-ввода )». Он представляет молекулы в виде строк символов ASCII. Обычно существует несколько эквивалентных способов записать одно и то же соединение (и с разным уровнем детализации, например, с указанием изомеров). Отсутствие уникальной идентифицируемости молекул - это недостаток, но, с другой стороны, SMILES достаточно удобочитаемы для человека. Строка SMILES для нашей дружественной молекулы иматиниба:

CC1 = C (C = C (C = C1) NC (= O) C2 = CC = C (C = C2) CN3CCN (CC3) C) NC4 = NC = CC (= N4) C5 = CN = CC = C5

Применяя нейронные сети к этому формализму, исследователи естественным образом сходятся на типах сетей, наиболее подходящих для данных последовательности, таких как рекуррентные нейронные сети и сети LSTM (долгосрочная / краткосрочная память). Мы обрисовали в общих чертах использование круглых отпечатков пальцев для (вариационных) автокодировщиков, но можно использовать и SMILES. Сюй и др. [2017] сообщают о результатах предсказания одномерных свойств молекул, которые превосходят соответствующий подход, основанный на отпечатках пальцев. Гомес-Бомбарелли и др. [2018] пытаются оптимизировать целевое свойство молекулы с помощью градиентного спуска в непрерывном пространстве скрытого вложения, а не в дискретном пространстве первичного (SMILES) представления. В этом приложении вариационный автокодировщик основан на рекуррентной нейронной сети. Выбирается исходная молекула и подается в сеть. Его закодированный скрытый вектор формирует отправную точку для движения сети в направлении, которое, скорее всего, улучшит желаемый атрибут. Полученный новый вектор-кандидат затем может быть декодирован в соответствующую молекулу.

Одним из основных недостатков генеративных подходов на основе SMILES является то, что не каждая возможная выходная строка соответствует действительной синтезируемой молекуле. Санчес-Ленгелинг и др. [2017] усовершенствовали генеративный подход для состязательной сети: валидность обеспечивается через дискриминаторную сеть, обратная связь которой линейно комбинируется с желаемым свойством молекулы в общую целевую функцию для генераторной сети.

На этом я завершаю обзор методов машинного обучения, основанных на двухмерных представлениях. Давайте теперь исследуем еще одно измерение.

Трехмерные (структурные) методы

Отпечатки пальцев и улыбки описывают структуру связей молекул. Но большинство небольших молекул могут принимать несколько трехмерных конформаций, которые могут быть более или менее благоприятными, в зависимости от их контекста. Таким образом, двумерные представления не передают полной информации. Следующая диаграмма иллюстрирует две возможные конформации этана:

Это очень простая молекула; но обратите внимание, что количество таких возможных конформаций растет экспоненциально с количеством вращающихся связей. Вот пространственная иллюстрация молекулы нашего лекарственного препарата иматиниб:

В конечном итоге действие лекарства должно проявляться через физические взаимодействия между его атомами и теми атомами белка, которые находятся в непосредственной близости от них. Поэтому исследователи стремились выявить пространственные и химические взаимодействия для руководства при разработке лекарств.

В конце 1980-х и 1990-х годах широко используемый предшественник 3-D QSAR подход назывался c сравнительным анализом молекулярного поля (Comfa; [Cramer et al, 1988]). Это все еще был метод на основе лигандов, но он пытался разработать трехмерную сеточную модель пространственного силового поля, индуцированного соединением. Сначала молекулы-кандидаты выравниваются по общему шаблону. Классические силовые поля на гипотетическом зонде атома водорода оцениваются в каждой точке сетки и объединяются в плоский вектор характеристик QSAR. Поскольку количество таких функций может легко превысить размер обучающей выборки, существует риск переобучения. Чтобы предотвратить это, используется метод частичных наименьших квадратов с меньшим количеством скрытых функций. Впоследствии PLS стал и остается популярным методом в области химии, поскольку он применяет индукцию признаков и индукцию за один шаг.

До сих пор мы говорили только об особенностях лиганда. Но если мы когда-либо захотим, чтобы модель была способна обобщать ранее невидимые цели или обучать ее изучению физических концепций, лежащих в основе механизма действия лекарственного средства, нам также потребуется выделить особенности для белка. Менее ясно, как сделать это осмысленно с помощью двумерных представлений, как в случае для лигандов: они на порядки больше, состоят из длинных цепочек аминокислот, каждая из которых, в свою очередь, состоит из множества атомов (в среднем 19,2 ). Как правило, только небольшое количество аминокислот участвует во взаимодействии с лигандом. Поскольку белок сложен сложным образом, аминокислоты, которые физически близки друг к другу или к лиганду, не обязательно должны находиться рядом в последовательности.

Действительно, были попытки расширить 1-D и 2-D подходы к белкам. Например, [Lenselink et al, 2017] разбили аминокислотную последовательность на 20 равных подсегментов (индивидуальная длина которых зависит от общей длины белка); каждый такой сегмент суммируется путем усреднения свойств аминокислот (молекулярная масса, заряд, акцепторы водородных связей и доноры водородных связей и т. д.). Может быть, удивительно, что это представление действительно смогло почерпнуть полезную информацию из белка. Хотя это оказалось жизнеспособным подходом, однако ясно, что специальные функции целой последовательности будут по своей сути ограничены.

Таким образом, для дальнейшего прогресса необходимо учитывать пространственное взаимодействие с белком. Возможно, вы слышали о проблеме сворачивания белка как о святом Граале науки: предсказать ab initio, как цепочка аминокислот принимает характерную трехмерную форму. Из-за огромной сложности, большинство структур необходимо выяснить экспериментально с помощью физических и химических методов, в первую очередь дифракции рентгеновских лучей на кристаллах; в последние годы ЯМР и криоэлектронная микроскопия также начали набирать обороты. Определение структуры может потребовать месяцев кропотливой работы. Часто наиболее трудным шагом является очистка и кристаллизация достаточного количества вещества. Некоторые важные классы, такие как GPCR, заведомо сложны; как мембранные белки они содержат чередующиеся гидрофильные и гидрофобные сегменты. Отметим также, что мы не можем напрямую увидеть структуру на рентгеновском изображении; он записывает что-то вроде преобразования Фурье и должен быть обработан для построения карты усредненной электронной плотности. Вероятность появления различных структур-кандидатов оценивается по степени их соответствия наблюдаемому изображению плотности.

PDB - это база данных, в которой собраны опубликованные структуры белков. Он большой, но все же структура большинства белков еще не известна. Поскольку многие белки одного вида подобны родственным белкам других видов (или родственным белкам одного и того же организма), моделирование гомологии может экстраполировать приблизительную трехмерную структуру.

Стыковка

Чаще всего PDB содержит сокристаллы белка с лигандом (нативным или лекарственным соединением). Однако в ходе (виртуального) высокопроизводительного скрининга и оптимизации потенциальных клиентов часто рассматриваются миллионы возможных соединений, и невозможно сокристаллизовать каждое из них. Поэтому были разработаны вычислительные методы стыковки для прогнозирования поз (относительное положение лиганда по отношению к белку плюс его внутренняя конформация) минимальной свободной энергии связывания. Золотой стандарт - это квантово-механическое решение уравнения Шредингера, но это слишком затратно с точки зрения вычислений, за исключением простейших случаев. Хотя стыковку можно рассматривать как более простой и частный случай проблемы сворачивания белка, он по-прежнему чрезвычайно сложен.

Все практические квантовые, а также классические механические подходы все еще должны делать множество упрощающих предположений. Классические модели обычно включают небольшое количество типов силовых полей между атомами; самое главное, кулоновское (электростатическое) и ван-дер-ваальсовое («бильярдный шар») взаимодействия. Не вдаваясь в подробности, это уравнение описывает общий вид потенциальной функции:

Вычислительная сложность стыковки возникает из-за комбинаторного количества конформаций белков и лигандов; Кроме того, оценки должны быть рассчитаны для всех пар атомов. Молекулярная динамика моделирует движение во времени, в то время как молекулярная механика просто пытается найти состояние с минимальной энергией, используя методы Монте-Карло. Оба типа методов полагаются на (часто очень похожие) функции силового поля.

Даже самые лучшие оценочные функции остаются неполными и приблизительными. Часто бывает необходимо настроить наборы параметров для конкретных целей и приложений. Традиционно они подразделяются на физические, эмпирические и основанные на знаниях - последние из которых даже не должны придерживаться физических описаний, но могут свободно включать определенные функции и тренировать веса для соответствия экспериментально наблюдаемые данные. Мне кажется, что со временем эти линии стали более размытыми из-за влияния вычислительной мощности и машинного обучения. Существует естественный прогресс в направлении рассмотрения этих силовых полей как функций машинного обучения, потому что, по сути, что такое машинное обучение, кроме подбора параметров? Мы скоро вернемся к этому вопросу.

От стыковки к прогнозированию активности

Методы стыковки, основанные на физически вдохновленных силовых полях, доказали, что они (в большинстве случаев) хорошо справляются с определением связывающих поз. Но здесь кроется еще одна возможная путаница. В принципе, лекарственное сродство является физическим следствием взаимодействия соединение-белок и регулируется теми же силами, которые вызывают позу, которую принимает молекула; Итак, не должны ли поза и предсказание близости быть (почти) эквивалентными? К сожалению и, возможно, сбивает с толку, это определенно не так. Фактически, несколько исследований [Li et al, 2014; Warren et al, 2006] обнаружили в лучшем случае очень слабую корреляцию между качеством позы и показателями сродства и биологической активности. Насколько я могу судить, причины не совсем ясны, но нет недостатка в известных болевых точках, на которые можно винить:

  • Неидеальные приближения силового поля, особенно неаддитивных полярных эффектов
  • Недостаточная информация о состоянии белка и лиганда перед связыванием; сокристалл отражает состояние только после этого.
  • Отсутствие или недостаточное моделирование воды
  • (Полу) жесткие модели белков для сохранения возможной вычислительной сложности. Иногда молекула «вызывает припадок» белка, который не может наблюдаться сама по себе.
  • Конформации кристаллической структуры отличаются от конформаций при комнатной температуре.
  • Как уже упоминалось, белки и молекулы гибки и постоянно находятся в движении. Вместо одной «позы с минимальной энергией» мы имеем дело со статистическим ансамблем (что интересно, ранний подход [Dietterich et al, 1997] пытался применить множественное машинное обучение, где входные данные состоят из наборы возможных поз, а положительные примеры должны содержать хотя бы одну хорошую позу).
  • Отсутствующий или недостаточный учет энтропии
  • И повсеместный шум в экспериментальных этикетках и структурах.

Итак, после того, как мы смирились с идеей, что одной вычислительной стыковки недостаточно для прогнозирования активности, естественной мыслью является создание функции восстановления для идентифицированных поз. Возвращаясь к нашему предыдущему наблюдению, что даже функции оценки силового поля, основанные на физике, содержат параметры настройки, мы можем рассматривать отдельные компоненты как особенности в модели сродства на основе лигандов. Именно это было реализовано в RF-score [Leung et al, 2015], расширении популярного программного обеспечения для стыковки Vina [Trott and Olson, 2010]. И зачем останавливаться на достигнутом? Поэтому в следующей версии [Leung et al, 2016] было добавлено еще больше функций в виде подсчета типов пар атомов белок-лиганд в пределах интервалов фиксированного расстояния. Показано, что RF-score превосходит чистую док-модель для прогнозирования биологической активности.

Теперь перейдем к моделям прогнозирования структурной близости, которые напрямую не интегрированы с стыковкой. Можно выделить три широких класса: трехмерные обобщения круговых отпечатков пальцев, свертка графа и представления на основе сетки.

Трехмерные отпечатки пальцев

Мы видели, как ECFP может отображать локальные окрестности атомов последовательно большего диаметра в вектор фиксированного размера. Мы можем обобщить эту идею, используя вместо окрестностей структур связей концентрически более крупные оболочки вокруг атома, кратные фиксированному радиусу основания [Axen et al, 2017]. Хеш-функция учитывает все атомы внутри оболочки, независимо от того, связаны они или нет. В отличие от (стандартного) ECFP, такие расширенные трехмерные отпечатки пальцев (E3FP) учитывают информацию, относящуюся не только к смежно связанным атомам, но также к соседним несвязанным атомам и относительной ориентации атомов (стереохимия). В этой статье E3FP применялись к молекулам независимо от белков; поэтому возникает сложность относительно того, сколько и какие конформации нужно предварительно вычислить. Поскольку подход ансамбля подобия (SEA) [Keizer et al, 2007] был методом, уже разработанным для работы с наборами отпечатков пальцев, он казался естественным. SEA определяет целевые сходства на основе суммы коэффициентов Танимото между двумя наборами, нормализованных с ожидаемым значением этой статистики при нулевой гипотезе. Используя E3FP, можно было обнаружить и экспериментально проверить несколько ранее неизвестных нецелевых лекарственных активностей из-за комплементарности этого показателя чисто двумерному ECFP.

Структурные отпечатки взаимодействия белок-лиганд (SPLIF) [Da et al, 2014] являются еще одним примером в этом классе представлений. Идентифицированы все атомы соединения и рецептора, которые находятся близко друг к другу, в пределах некоторого предельного расстояния. Их окрестность расширяется и хешируется в битовый вектор с использованием обычных двумерных круглых отпечатков пальцев. кроме того, биты снабжены комментариями с координатами центрального атома. На этапе тестирования сходство новых молекул определяется, сначала применяя расстояние Танимото, а затем вычисляя среднеквадратичное расстояние между координатами, связанными с одними и теми же битами. В исследовании виртуального скрининга GPCR [Lenselink et al, 2016] SPLIF выгодно отличался от нескольких других типов взаимодействующих отпечатков пальцев.

Свертки структурных графов

Выше мы описали применение сверток графов, также известных как передача нейронных сообщений, к двумерным представлениям молекул. Эта структура может быть расширена за счет включения пространственных отношений. Давайте сначала посмотрим на приложения для отдельных молекул. Здесь исследователи добились значительных успехов в том, что можно назвать ускоренным обучением.

Ускоренное обучение

Современные квантово-механические методы позволяют рассчитывать физические свойства молекул с очень высокой точностью. Однако они очень медленные и дорогостоящие с точки зрения вычислений и могут применяться только к ограниченному числу атомов. Следовательно, одна из идей состоит в том, чтобы обучить модель предсказывать квантово-механический результат за один шаг; тогда использование сети вместо исходной физической модели может привести к огромному ускорению - сообщалось до 5 порядков величины.

QM-9 - это база данных, которая исчерпывающе перечисляет 134 тысячи стабильных малых органических молекул, состоящих из девяти тяжелых атомов (C, O, N и F). Для каждой молекулы были рассчитаны несколько свойств и энергий с использованием теории функционала плотности (DFT). В этой и аналогичных базах данных было показано, что различные модели нейронных сетей могут достигать химической точности [Faber et al, 2017]. Есть надежда, что такие модели также можно будет экстраполировать на молекулы, которые слишком велики для полной квантово-механической обработки.

Чтобы детально исследовать определенные области радиального и углового соседства отдельного атома, было предложено несколько базисных функций. У них есть некоторые общие черты и различия, но чтобы дать вам представление об их форме, позвольте мне сосредоточиться на работе Smith et al [2017]. Для вычислительной управляемости желательно игнорировать взаимодействия атомов, которые находятся дальше некоторого максимального расстояния. Кроме того, для устойчивости мы хотим избежать больших вкладов вблизи этого порогового значения. Таким образом, в соответствии с функциями симметрии Белера-Парринелло определена огибающая взаимного расстояния R_ij двух атомов,

Радиальная функция с обучаемым центром и шириной умножается на огибающую, и эти потенциалы суммируются по всем соседним атомам,

Аналогичным образом могут быть зафиксированы угловые свойства между парами соседей j, k:

Смит и др. [2017] показали, что свертка графов с этими радиальными базисными функциями обеспечивает химическую точность на подмножестве 60K базы данных GDB-11, содержащем до десяти атомов.

До сих пор мы обсуждали только методы работы с отдельными молекулами. Напротив, Файнберг и др. [2018] представляют структурное обобщение свертки графов, которое может быть применено к комплексам белок-лиганд. Чтобы включить информацию о связях и пространственную информацию, расчет состоит из трех этапов. Первый распространяет только ковалентные связи, как и в двумерном случае. На втором этапе фиксированное количество типов ребер извлекается из матрицы расстояний всех пар атомов белок-лиганд с использованием пороговой обработки; эта фаза распространяет ковалентные и нековалентные типы кромок совместно. На третьем этапе выполняется сбор графа на основе лигандов, опять же аналогично двумерному случаю. Эта работа также улучшает функцию грани за счет использования стробированных повторяющихся единиц (GRU), которые могут лучше сохранять зависимости на большом расстоянии. Свертка пространственного графа хорошо работает на PDBbind по сравнению с несколькими базовыми методами.

Подход на основе сетки

Компания Atomwise, в которой я работаю, первой применила глубокие сверточные нейронные сети в области структурных открытий лекарств [Wallach et al, 2015]. Вместо пикселей в изображении создается сетка путем интерполяции координат сокристалла рецептора и лиганда. Сетка состоит из 203 вокселей, расположенных на расстоянии 1 Ангстрем друг от друга и центрированных в месте привязки. Вместо 3 каналов RGB теперь гораздо больше каналов, по одному для каждого типа атома и, возможно, подтипа. И вместо двумерных сверток мы используем трехмерные версии этих фильтров. Как и в обычном распознавании изображений, данные дополняются случайными поворотами и перемещениями. Общая архитектура AtomNet похожа на те, что используются для распознавания изображений; ряд сверточных слоев увеличивающейся ширины и уменьшающегося разрешения, за которыми следуют два полностью связанных слоя и выходной сигмовидный слой для классификации.

Одна интересная идея [Ragoza et al, 2017] состоит в том, чтобы использовать обратное распространение по сети вплоть до начальной позы лиганда; градиенты можно интерпретировать как силы, действующие на молекулу, чтобы улучшить позу стыковки. Однако следует соблюдать осторожность, чтобы избежать возможных ошибок. Если сеть видела только «разумные» тренировочные позы из кристаллических структур или стыковки, она могла бы переместить лиганды в положения, где они конфликтуют с белком, поскольку она еще не научилась распознавать их как физически невозможные.

Эквивалент вращения

Перевод эквивалентность означает, что перевод ввода уровня приводит к (отображению) аналогичного перевода вывода на исходный, непереведенный ввод. Для сверточных сетей это свойство заложено в форме оператора свертки. Для естественных изображений эквивалентность перевода - естественная особенность; кроме того, просмотр объекта под небольшим углом поворота также не должен сильно менять интерпретацию. Однако полной эквивалентности вращения у нас нет: распознать перевернутую морду животным сложнее. Однако есть области, в которых желательна полная эквивариантность вращения, и представление молекул является одним из них.

Любые пространственные характеристики, полученные из попарных атомных расстояний, по определению эквивалентны сдвигу и вращению. Однако у них есть слабость в том, что они не могут различать зеркальные изображения; Хиральные молекулы часто могут иметь самые разные биологические эффекты. В качестве лекарства Томас и др. [2018] недавно предложили сети тензорного поля, форму свертки графов на облаке точек. Ключевая идея состоит в ограничении сверточных фильтров определенной разделяемой функциональной формой, где угловая часть представляет собой сферическую гармонику, а радиальная функция является обучаемой.

Эквивалентная непрерывная ротационная эквивариантная форма для подхода на основе трехмерной сетки не была разработана. Однако несколько исследователей предложили приближение через дискретную эквивариантность вращения на 90 градусов [Dieleman et al, 2016]. По сути, существуют две широкие стратегии: одна циклически прокручивает фильтры сети, а другая циклически прокручивает входную сетку. Сообщаемые эксперименты включают классификацию галактик, планктон и аэрофотоснимки. Однако, насколько мне известно, ни один из этих подходов не применялся непосредственно к сценарию открытия лекарств.

Заключение

В этом посте я попытался кратко проинструктировать своих коллег по машинному обучению, которые плохо знакомы с открытием новых лекарств. Прошу прощения, если я пропустил некоторые работы и ссылки - существует большой объем литературы, и мы можем только поверхностно здесь. Тем не менее, я надеюсь, что обрисовал в общих чертах основные цели, проблемы и предлагаемые подходы к машинному обучению.

Как мы видели, нейросетевые подходы добились замечательных успехов в точном предсказании свойств изолированных небольших молекул, ускоряя вычисления на много порядков по сравнению с квантово-механическими вычислениями. Надежда состоит в том, чтобы раздвинуть границу все более и более сложных химических сценариев. Что нужно сделать, чтобы добиться значительного прогресса в открытии новых лекарств? На мой взгляд, самый важный необходимый ресурс - это общедоступные высококачественные данные о сходстве. Доступность больших тщательно отобранных общедоступных наборов данных стала главной движущей силой успеха революции в области глубокого обучения. Пока базы данных биологических и химических анализов бледнеют в сравнении: ImageNet (версия 2010 г.) содержит 14 миллионов изображений, а PDBbind (версия 2017 г.) содержит 15 тысяч белок-лигандных комплексов.

Если бы академические исследователи и фармацевтические компании могли делиться большей частью своих внутренних данных, это принесло бы огромную пользу сообществу в целом. Как упоминалось ранее, даже публикация только неудачных экспериментов может очень помочь. Кроме того, для исследовательского сообщества также важно выбрать общепринятые критерии и показатели, которые могут обеспечить предполагаемую точность в реальных проектах в области медицинской химии.

Открытие лекарств - это непросто. Должны быть причины, по которым, несмотря на десятилетия, когда над этим работали очень умные люди, общий прогресс был и до сих пор очень медленным! Я не думаю, что реально ожидать, что новые алгоритмы машинного обучения сами по себе, даже глубокое обучение, полностью решат все проблемы в одночасье.

Сказав это, и, возможно, даже из-за остающихся проблем, это увлекательная область для работы в качестве ученого по машинному обучению или инженера-программиста. Если вы играете с мыслью о том, чтобы окунуться в это, не позволяйте отсутствующим знаниям в области химии или биологии сдерживать вас - по моему опыту, абсолютно точно, вы можете обучать сверточные нейронные сети на воксельных представлениях, не будучи знакомыми с входами и возможностями. выходы конформаций киназ ». Было бы интеллектуально привлекательно (и выгодно в денежном отношении) изобрести новые стратегии персонализации для рекламы. Но работа в области наук о жизни дает вам шанс внести свой вклад в более долгую жизнь и жизнь, более достойную жизни для пациентов с раком и другими ужасными заболеваниями.

использованная литература

  • Аксен, С. Д., Хуанг, Х. П., Касерес, Э. Л., Генделев, Л., Рот, Б. Л., и Кейзер, М. Дж. (2017). Простое представление трехмерной молекулярной структуры. Журнал медицинской химии, 60 (17), 7393–7409. Https://doi.org/10.1021/acs.jmedchem.7b00696
  • Баллестер, П. Дж., И Митчелл, Дж. Б. О. (2010). Подход машинного обучения к прогнозированию сродства связывания белок-лиганд с приложениями для молекулярного стыковки. Биоинформатика (Оксфорд, Англия), 26 (9), 1169–75. Https://doi.org/10.1093/bioinformatics/btq112
  • Крамер Р. Д., Паттерсон Д. Э. и Банс Дж. Д. (1988). Сравнительный анализ молекулярного поля (CoMFA). 1. Влияние формы на связывание стероидов с белками-носителями. Журнал Американского химического общества, 110 (18), 5959–5967. Https://doi.org/10.1021/ja00226a005
  • Да, К., и Киреев, Д. (2014). Структурные отпечатки взаимодействия белок-лиганд (SPLIF) для виртуального скрининга на основе структуры: метод и сравнительное исследование. Журнал химической информации и моделирования, 54 (9), 2555–2561. Https://doi.org/10.1021/ci500319f
  • Даль Г. Э., Джайтли Н. и Салахутдинов Р. (2014). Многозадачные нейронные сети для прогнозов QSAR. Получено с https://arxiv.org/pdf/1406.1231.pdf
  • Дилеман, С., Де Фау, Дж., И Кавукчуоглу, К. (2016). Использование циклической симметрии в сверточных нейронных сетях. Получено с http://arxiv.org/abs/1602.02660
  • Диттерих, Т. Г., Латроп, Р. Х., и Лозано-Перес, Т. (1997). Решение проблемы нескольких экземпляров с прямоугольниками, параллельными осям. Искусственный интеллект, 89 (1–2), 31–71. Https://doi.org/10.1016/S0004-3702(96)00034-3
  • Duvenaud, D., Maclaurin, D., Aguilera-Iparraguirre, J., Gómez-Bombarelli, R., Hirzel, T., Aspuru-Guzik, A., & Adams, R.P. (2015). Сверточные сети на графах для изучения молекулярных отпечатков пальцев. Обработка нейронной информации, 1–9. Http://arxiv.org/abs/1509.09292
  • Фабер, Ф. А., Хатчисон, Л., Хуанг, Б., Гилмер, Дж., Шёнхольц, С. С., Даль, Г. Э.,… фон Лилиенфельд, О. А. (2017). Ошибки прогнозирования машинного обучения лучше, чем точность DFT, 1–12. Получено с http://arxiv.org/abs/1702.05532
  • Файнберг, Э. Н., Сур, Д., Хусик, Б. Э., Май, Д., Ли, Ю., Янг, Дж.,… Панде, В. С. (2018). Свертки пространственных графов для открытия лекарств, 1–14. Получено с http://arxiv.org/abs/1803.04465
  • Гэйбл Дж., Десафи Дж. И Рогнан Д. (2014). Остерегайтесь функций скоринга на основе машинного обучения - об опасности разработки черных ящиков. Остерегайтесь функций скоринга на основе машинного обучения - об опасности разработки черных ящиков. Журнал химической информации и моделирования, 54 (Ml), 2807–2815. Https://doi.org/10.1021/ci500406k
  • Гилмер, Дж., Шёнхольц, С. С., Райли, П. Ф., Виньялс, О., и Даль, Г. Э. (2017). Передача нейронных сообщений для квантовой химии. Получено с http://arxiv.org/abs/1704.01212
  • Гомес-Бомбарелли, Р., Вей, Дж. Н., Дювено, Д., Эрнандес-Лобато, Дж. М., Санчес-Ленгелинг, Б., Шеберла, Д.,… Аспуру-Гузик, А. (2016). Автоматический химический дизайн с использованием непрерывного представления молекул на основе данных. ACS Central Science, 4 (2), 268–276. Https://doi.org/10.1021/acscentsci.7b00572
  • Хань Дж., Цзо В., Лю Л., Сюй Ю. и Пэн Т. (2016). Создание классификаторов текста с использованием положительных, немаркированных и устаревших примеров. Вычисление параллелизма, 28 (13), 3691–3706. Https://doi.org/10.1002/cpe.3879
  • Хьюз, Дж. П., Рис, С., Калинджян, С. Б., и Филпотт, К. Л. (2011). Принципы раннего открытия лекарств. Британский журнал фармакологии, 162 (6), 1239–49. Https://doi.org/10.1111/j.1476-5381.2010.01127.x
  • Кадурин А., Алипер А., Казеннов А., Мамошина П., Ванхаэлен К., Храбров К., Жаворонков А. (2016). Рог изобилия значимых зацепок: применение глубоко состязательных автоэнкодеров для разработки новых молекул в онкологии. Oncotarget, 8 (7), 10883–10890. Https://doi.org/10.18632/oncotarget.14073
  • Кирнес, С., Гольдман, Б., и Панде, В. (2016). Моделирование промышленных данных ADMET с помощью многозадачных сетей. Https://doi.org/1606.08793v1.pdf
  • Кирнес, С., Макклоски, К., Берндл, М., Панде, В., и Райли, П. (2016). Свертки молекулярных графов: дальше отпечатков пальцев. Журнал компьютерного молекулярного дизайна, 30 (8), 595–608. Https://doi.org/10.1007/s10822-016-9938-8
  • Кейзер, М. Дж., Рот, Б. Л., Армбрустер, Б. Н., Эрнсбергер, П., Ирвин, Дж. Дж., И Шойчет, Б. К. (2007). Связь белковой фармакологии с химией лигандов. Nature Biotechnology, 25 (2), 197–206. Https://doi.org/10.1038/nbt1284
  • Крамер, К., Каллиокоски, Т., Гедек, П., и Вульпетти, А. (2012). Экспериментальная неопределенность неоднородных общедоступных данных K_i. Журнал медицинской химии, 55 (11), 5165–5173. Https://doi.org/10.1021/jm300131x
  • Крижевский А., Суцкевер И., Хинтон Г. Э. (2012). Классификация ImageNet с глубокими сверточными нейронными сетями. Достижения в системах обработки нейронной информации, 1–9. https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks
  • Ленселинк, Э. Б., Джесперс, В., Ван Влаймен, Х. В. Т. Т., Айзерман, А. П., и ван Вестен, Г. Дж. П. П. (2016). Взаимодействие с GPCR: использование отпечатков пальцев взаимодействия для виртуального скрининга. Журнал химической информации и моделирования, 56 (10), 2053–2060. Https://doi.org/10.1021/acs.jcim.6b00314
  • Ленселинк, Э. Б., Тен Дийке, Н., Бонгерс, Б., Пападатос, Г., Ван Влеймен, Х. В. Т., Ковальчик, В.,… Ван Вестен, Г. Дж. П. (2017). Помимо шумихи: глубокие нейронные сети превосходят известные методы с использованием набора тестов биоактивности ChEMBL. Журнал химинформатики, 9 (1), 1–14. Https://doi.org/10.1186/s13321-017-0232-0
  • Ли, Х., Люнг, К. С., Вонг, М. Х., и Баллестер, П. Дж. (2015). Улучшение автопривязки vina с использованием случайного леса: растущая точность прогнозирования привязки за счет эффективного использования больших наборов данных. Молекулярная информатика, 34 (2–3), 115–126. Https://doi.org/10.1002/minf.201400132
  • Ли, Х., Люнг, К. С., Вонг, М. Х., и Баллестер, П. Дж. (2016). Исправление влияния ошибки генерации позы стыковки на прогноз сродства привязки. В книге Биоинформатика BMC (том 8623). Https://doi.org/10.1007/978-3-319-24462-4_20
  • Ли Ю., Хань Л., Лю З. и Ван Р. (2014). Сравнительная оценка скоринговых функций на обновленном бенчмарке: 2. Методы оценки и общие результаты. Журнал химической информации и моделирования, 54 (6), 1717–1736. Https://doi.org/10.1021/ci500081m
  • Лопес, Дж. К. Д., Дос Сантос, Ф. М., Мартинс-Хосе, А., Августинс, К., и Де Винтер, Х. (2017). Показатель мощности: новый статистически надежный показатель типа обогащения для приложений виртуального скрининга с возможностью раннего восстановления. Журнал химинформатики, 9 (1), 1–11. Https://doi.org/10.1186/s13321-016-0189-4
  • Мартин, Э. Дж., Поляков, В. Р., Тиан, Л., и Перес, Р. К. (2017). Profile-QSAR 2.0: точность виртуального скрининга киназ сопоставима с IC50 с четырьмя концентрациями для реально новых соединений. Журнал химической информации и моделирования, 57 (8), 2077–2088. Https://doi.org/10.1021/acs.jcim.7b00166
  • Майзинджер, М. М., Карчиа, М., Ирвин, Дж. Дж., И Шойчет, Б. К. (2014). Каталог полезных приманок, улучшенных (DUD-E): лучшие лиганды и приманки для лучшего тестирования. Nucleic Acids Res, 42, 1083–1090.
  • Рагоза, М., Тернер, Л., и Коэс, Д. Р. (2017). Оптимизация позы лиганда с помощью сверточных нейронных сетей на основе атомной сетки. Получено с https://arxiv.org/pdf/1710.07400.pdf
  • Санчес-Ленгелинг, Б., Оутейрал, К., Гимарайнш, Г. Л., и Аспуру-Гузик, А. (2017). Оптимизация распределений в молекулярном пространстве. Объективно-усиленная генеративная состязательная сеть для химии обратного дизайна (ORGANIC). ChemRxiv, 1–18. Https://doi.org/10.26434/chemrxiv.5309668.v3
  • Смит, Дж. С., Исаев, О., & Ройтберг, А. Э. (2017). ANI-1: расширяемый потенциал нейронной сети с точностью DFT при вычислительных затратах на силовое поле. Chem. Наук, 8 (4), 3192–3203. Https://doi.org/10.1039/C6SC05720A
  • Томас, Н., Смидт, Т., Кирнес, С., Янг, Л., Ли, Л., Кольхофф, К., и Райли, П. (2018). Сети тензорного поля: нейронные сети, эквивалентные вращению и трансляции для трехмерных облаков точек. Получено с http://arxiv.org/abs/1802.08219
  • Тротт, О., и Олсон, А. А. Дж. (2010). AutoDock Vina: повышение скорости и точности стыковки за счет новой функции подсчета очков, эффективной оптимизации и многопоточности. Журнал вычислительной химии, 31 (2), 455–461. Https://doi.org/10.1002/jcc.21334.AutoDock
  • Трюшон, Ж.-Ф., и Бейли, К.И. (2007). Оценка методов виртуального скрининга: хорошие и плохие показатели для проблемы раннего распознавания Оценка методов виртуального скрининга: хорошие и плохие показатели для проблемы раннего распознавания, 47 (февраль), 488–508. Https://doi.org/10.1021/ci600426e
  • Валлах, И., Дзамба, М., & Хейфец, А. (2015). AtomNet: Глубокая сверточная нейронная сеть для прогнозирования биоактивности при открытии лекарств на основе структуры, 1–11. Https://doi.org/10.1007/s10618-010-0175-9
  • Уоллах, И., и Хейфец, А. (2018). Большинство критериев классификации на основе лигандов вознаграждают за запоминание, а не за обобщение. Журнал химической информации и моделирования, 58 (5), 916–932. Https://doi.org/10.1021/acs.jcim.7b00403
  • Уоррен, Г. Л., Эндрюс, К. В., Капелли, А., Кларк, Б., Лалонд, Дж., Ламберт, М. Х.,… Хед, М. С. (2006). Критическая оценка программ стыковки и функций подсчета очков. Капелли, Дж. Med. Chem., (49), 5912–5931. Https://www.ncbi.nlm.nih.gov/pubmed/17004707
  • Сюй З., Ван С., Чжу Ф. и Хуанг Дж. (2017). Отпечаток Seq2seq: неконтролируемое глубокое молекулярное встраивание для открытия лекарств. … 8-й Международной конференции ACM…, 285–294. Получено с http://dl.acm.org/citation.cfm?id=3107424