Использование машинного обучения и квантовых компьютеров для улучшения прогнозов токсичности.

Введение

Вычислительная техника дает исследователям возможность виртуализировать биохимические взаимодействия с такой скоростью и объемом, которые превосходят традиционные методы in vitro или in vivo. Такие технологические достижения сделали методы in-silico все более эффективными на этапе открытия лекарств, которые могут фильтровать миллионы молекул с рентабельной скоростью, которая в противном случае была бы недоступна. Таким образом, виртуальный скрининг полезен при моделировании молекулярных взаимодействий, которые могут привести к ряду представлений о молекулярном поведении, таком как токсичность, как показано Wu and Wang (2018). С возрождением машинного обучения (ML) из-за достижений в области аппаратного обеспечения и дивидендов сетевых исследовательских сообществ, приносящих плоды в виде расширенных наборов данных, исследователи теперь могут правильно использовать методы in-silico. Наиболее эффективное использование ML для измерения токсичности происходит от Generative Adversarial Networks (GAN), но даже тогда они, как правило, дают неоптимальные результаты (Zhang et al. 2018). Во многом это происходит из-за характера того, как модели машинного обучения используют обучающие данные, а затем стремятся максимизировать функцию возврата, которая часто чрезмерно упрощается в случае экспериментов, основанных на токсичности. Такая фундаментальная зависимость от обучающих данных показывает, что, поскольку они являются семенем многих моделей машинного обучения, эти модели скомпрометированы. Такие проблемы еще больше усугубляются, когда от них ожидается, что они будут адекватно ориентироваться в химическом пространстве, соблюдая при этом ряд параметров, связанных с токсичностью. В частности, в этом обзоре предлагаются улучшения, которые касаются обучающих данных, сетевой архитектуры и использования квантовых вычислений для улучшения прогнозов токсичности. Поэтому цель этого обзора - предложить несколько предложений, которые улучшают методы ML, используемые при оценке токсичности.

История

Одна из самых ранних фаз разработки новых лекарств включает открытие лекарств: процесс, в ходе которого идентифицируются структуры, которые лучше всего связываются с мишенью для лекарства, такой как конкретный белок или фермент. Среди исследователей стало очевидно, что вместо использования традиционных методов определения перспективных объектов компьютеры могут моделировать эти эксперименты с гораздо более оптимальными затратами. Впоследствии методы in-silico вторглись в эксперименты по токсичности после того, как все большее количество наборов данных становилось доступным для таких исследователей, как DeepChem, PyMol и RCSB Protein Data Bank (Mayr et al. 2015). Виртуализация, однако, означала, что вычислительные представления молекул были несколько сжаты и упрощены, что снизило точность, с которой они могут эффективно виртуализировать реальные биохимические реальности исследуемых свойств. Например, одномерное молекулярное представление, как правило, будет описывать только молекулярную массу, растворимость, заряд и количество вращающихся связей типа атома, как подчеркнуто Каримом и др. (2019). Двумерные представления учитывают график ковалентных и ароматических связей, но не относятся к пространственным координатам. Оба измерения, естественно, не учитывают трехмерное пространство и их последующую эволюцию во времени.

Исторически сложилось так, что в симуляциях in silico эти представления данных использовались для двух компонентов - генеративного и прогнозного моделирования. Генеративные задачи приводят к синтезу виртуальных молекул, воспроизводимых с помощью химической формулы, возвращаемой компьютером, которая обычно имеет формат ORGANIC или SMILES (Noorden, 2018). Задачи прогнозирования вычисляют химические свойства этих сгенерированных виртуальных молекул, такие как активность, токсичность и растворимость в воде. Генеративные модели, такие как GAN или автокодировщики, использовались с разной степенью успеха за счет использования различных физико-химических свойств в их виртуальных молекулярных представлениях.

Однако в совокупности эти системы страдают от ряда проблем, включая несовпадение и коллапс режима. В основе этих проблем лежит то, что, хотя были выпущены большие обучающие наборы, исследователям присуще предвзятое отношение к поиску только прибыльных перспектив, из-за чего эти наборы данных в основном смещены в сторону ложных срабатываний (Karim et al., 2019. Исследователи каталогизировали только 130 миллионов органических и неорганические вещества с Химической абстрактной службой, представляющие собой лишь часть предполагаемого потенциала 1063 молекул в химическом пространстве. Это намекает не только на ограничение обучающих данных, которые используются в методах машинного обучения, но и на возможность неопределенного физико-химического идеи, которые могут повлиять на результаты.

Современное состояние

Стандартизированные наборы данных придают моделям машинного обучения локальность, необходимую для схождения решения к разумному результату. Таким образом, предсказания сворачивания белков на основе машинного обучения симптоматически аналогичны объему токсичности в том смысле, что область кандидатов настолько велика, что необходимы интеллектуальные механизмы для правильного просеивания многомерной информации. ProteinNet представляет собой один из таких наборов данных, который предоставляет последовательность белков, структуры как вторичные или третичные, а также вспомогательные метаданные, такие как обучение, проверка и тестовые расщепления (Pu et al.2019). Эксперименты с использованием ProteinNet показали, что, несмотря на этот богатый набор данных, сохраняются присущие им биохимические свойства, которые могут поставить под угрозу чувствительность результатов. Например, поскольку белки связаны эволюционным родством, это фактически гарантирует, что каждый белок в некоторой степени связан с другим. Хуже того, Хуэй (2018) описывает, как компьютер может интерпретировать последовательности категориальных переменных двух идентичных белков как идентичные белки, что ограничивает разграничение в модели между белками.

Современные методы машинного обучения для прогнозирования токсичности перешли от типичных моделей обучения с подкреплением к более комплексным GAN. Более простые модели ML (Jeon, 2019) использовались с меньшим успехом, как видно из каскадной модели дескрипторов молекулярного картирования соединений для их соответствующих результатов анализов, которые включали:

  1. ALogP,
  2. Поляризуемость,
  3. Количество вращающихся связок,
  4. Площадь полярной поверхности,
  5. Количество доноров и акцепторов водородной связи,
  6. Молекулярный вес.

Из-за этих недостатков исследователи определили, что многозадачные модели машинного обучения, направленные на точное моделирование биофизических свойств, требуют обмена информацией между наборами данных для успешной работы (Zhang et al. 2018). Впоследствии двойственность кодировщика / декодера в GAN позволяет транслировать врожденные детали наборов данных в отдельные модели, что теоретически помогает при построении многомерных представлений цели. Это гарантирует, что, кодируя молекулы в представлении SMILES, GAN использовались на первом этапе процесса открытия лекарств, генерируя желаемую биологическую активность и генерируя нефуллереновые акцепторы электронов для органических солнечных элементов. GAN предоставляют исследователям возможность синтезировать соединения, а не просто различать их, как это позволяют традиционные методы ML. Даже в этом случае результаты Karim et al. 2019 показал, что обычно существует значительное количество недопустимых молекул, и даже для тех, которые имеют адекватную структуру, часто наблюдается низкая дисперсия или неспособность достичь всех необходимых параметров.

Попытки контролировать недостатки GAN опирались на тактические изменения, которые в большинстве случаев не помогли устранить естественные архитектурные недостатки этих моделей. Типичные тактики, используемые для улучшения производительности GAN, как описано Хуэем (2018), включают:

  1. Нормализация входных значений от –1 до 1,
  2. Модифицированная функция потерь для оптимизации (G) с использованием max (logD) в качестве первой формулировки имеет исчезающие градиенты на ранней стадии,
  3. Используя сферическую Z и интерполяцию по большому кругу, а не по прямым линиям,
  4. Построение мини-пакетов для реальных и поддельных данных,
  5. Избегайте использования разреженных градиентов, таких как ReLu и MaxPool, и вместо использования LeakyReLu. Для использования с понижающей дискретизацией - средний пул, cov2d и шаг. Для использования с повышающей дискретизацией - pixel shuffle и convtranspose2d and stride,
  6. Используйте мягкие и шумные метки с плавающими числами вместо целых и время от времени переворачивайте метки во время обучения,
  7. Используйте SGD для дискриминатора и ADAM для генератора,
  8. Добавьте шум на входы и добавьте гауссов шум на каждый слой генератора,
  9. Используйте tanh как последний слой вывода генератора,
  10. Используйте два дискриминатора для максимального различения «реальных» данных и «поддельных» данных.

Предлагаемые методы улучшения

Каждый из следующих методов разработан для поддержки методов на основе GAN на разных этапах модели.

Данные для обучения: итеративная сложность
Поскольку модели машинного обучения используют информацию, полученную из наборов данных, это семя должно быть правильно настроено для правильного прорастания. К сожалению, наборы данных, используемые сегодня для прогнозирования токсичности, искажены и, как следствие, вводят в заблуждение модели машинного обучения. Имея это в виду, идея состоит в том, чтобы вместо этого создать отдельную модель, которая может точно генерировать периодическую таблицу и итеративно заставить эту модель скромно регенерировать наборы данных.

Таким образом, этот тип обучения без учителя следует за тенденцией к впечатляющим результатам обучения без учителя, которое стало популярным после достижений Alpha Zero. Вместо того, чтобы разрабатывать специализированную высокопроизводительную модель в индивидуальной области - модель должна самообучаться на основе первых принципов и учиться этому, генерируя молекулы, которые не только связаны с биофизическими законами, но также являются элементами Периодической таблицы.

Причина эмуляции Периодической таблицы состоит в том, что мы хотим, чтобы модель изначально была настроена на широкий спектр доступных молекул. Второй этап эволюции модели будет заключаться в построении соединений, состоящих из двух и трех молекул и продолжающих с увеличивающимся количеством молекул. Очевидно, что способ развития этих моделей подлежит дальнейшей адаптации, и каждый итеративный дискриминатор может постепенно повышать сложность предыдущей модели. Экспериментальные результаты дадут представление о наиболее оптимальных типах конфигураций между различными классификациями молекул. Впоследствии это также можно оптимизировать с помощью моделей машинного обучения, которые оптимизируют конфигурации планшетов.

Что касается типа молекулярной конфигурации, четырехмерные представления должны быть золотым стандартом для представлений in-silico, поскольку аналогичные методы, используемые для методов in-vivo или in-vitro, уже используют это по умолчанию. Это, конечно, еще больше увеличивает вычислительное пространство. Таким образом, чтобы не только сжимать, но и прогнозировать, как молекулы будут вести себя во времени, для хранения результатов следует использовать дерево поиска Монте-Карло (MCST), разработанное Silver et al. (2017). Просеивать все возможные комбинации невозможно, поэтому алгоритм поиска требует отдельной модели, которая во многих отношениях является заместителем функции потерь в основной модели, которая генерирует обучающие данные.

Впоследствии «итеративная сложность» означает использование набора данных для обучения отдельной модели, которая, в свою очередь, будет производить обучающие данные для основной модели. Наборы данных, которые были созданы вручную, всегда должны быть несовершенными представлениями их проблемной области. Чтобы противостоять этому, для генерации обучающих данных предлагаются три отдельные модели на основе машинного обучения.

  1. Планшетная модель. Определяет, как преуспевающая "основная" модель должна развиваться после изучения Периодической таблицы.
  2. Основная модель. Создает обучающий набор в виде предварительно настроенного набора весов, который наилучшим образом представляет молекулы и соединения.
  3. Модель поиска: модель поиска через MCST, которая содержит молекулярные поведенческие взаимодействия.

Таким образом, есть надежда, что путем автоматизации генерации обучающих данных врожденные отношения, которые управляют молекулами и соединениями, могут быть представлены надлежащим образом и противодействуют пустоте, создаваемому сегодняшними наборами данных.

Сетевая архитектура: концентрированные генерализаторы для многоцелевого завершения
Глубокие сети доказали свою эффективность в решении ряда дискретных задач, а именно в компьютерном зрении и обработке естественного языка, но не смогли обобщить их на более абстрактные концепции. или менее определенные классификации. Таким образом, отказ многих сетей GAN, которые используют глубокую архитектуру для прогнозирования токсичности, по понятным причинам соответствует ожидаемому результату этих моделей.

Теоретическое понимание этих неудач не совсем корректно, но экспериментально модели такого типа не дали результатов, необходимых для высокопроизводительного прогнозирования токсичности. Глубокие сети не отражают «теорему универсальной аппроксимации» (Кумар, 2019), которая описывает, как рекуррентная сеть с прямой связью только с одним скрытым слоем может аппроксимировать непрерывные функции на компактных подмножествах действительных чисел. С прагматической точки зрения количество нейронов, необходимых для этого скрытого слоя, может превышать количество практических реализаций, что подразумевает, что в практических приложениях может существовать потолок.

Поскольку современные архитектуры не смогли достичь существенного уровня общей производительности, необходимость в альтернативных архитектурах становится очевидной. Предлагаемая альтернатива состоит в том, чтобы несколько усовершенствованных сетей работали в унисон друг с другом, каждая из которых совместно использовала один и тот же скрытый слой. Этот тип сети следует называть формой «Концентрированного генерализатора» (CG), который, по сути, предназначен для улавливания объединяющего сходства между различными изученными областями знаний.

Компьютерная графика следует за недавним исследованием, проведенным в рамках анализа главных компонентов, в котором подчеркивается, как несколько функций улавливают наибольшую дисперсию. Предполагая использование нелинейных функций, все функции в пространстве гипотез теоретически возможны. Компьютерные группы могут развиваться, агрессивно сокращая сеть с помощью расширения Тейлора, разработанного Nvidia (Anwar, 2015). Это знаменует начало CG, сильно ослабленной сети, которая гиперлокализована на определенные стимулы. Следующим шагом будет создание другой сети, которая будет адаптирована для отдельного домена и затем будет сокращена после успешной работы.

Чтобы сконцентрировать эти два независимых узла, сеть должна научиться успешно объединять и соответствующим образом настраивать веса скрытого слоя, чтобы иметь возможность достичь адекватного стандарта производительности. Этот стандарт можно определить как меру времени обработки или количества изменений, но цель системы - минимизировать количество изменений, необходимых для достижения комфортной производительности.

Как видно, этот процесс может повторяться бесчисленное количество раз, при этом каждая итерация соединяется с двумя независимо сокращаемыми сетями. Первоначально может быть выгодно позволить этим системам алгебраически добавлять свой скрытый слой к чистому общему количеству скрытых узлов в сети до тех пор, пока производительность CG не будет лучше проанализирована.

Квантовые вычисления
Недавние разработки в области квантовых вычислений приблизили технологию к реализации первоначального видения Ричарда Фейнмана использования машин для «моделирования квантовой физики и химии». Таким образом, биохимики должны начать адаптировать свои навыки, чтобы лучше использовать это оборудование, что является полным подрывом типичных методологий, используемых для экспериментов in silico. В последние несколько лет и даже в последнее время наблюдается устойчивый прогресс в области инженерии квантовых вычислений, включая осознание того, что стандартные средства микропроизводства (Francis, 2015) могут использоваться для создания блоков квантовых процессоров, и недавний прорыв Google в области квантового превосходства. (Аруте, 2019).

Постоянно улучшающееся состояние квантовых компьютеров делает больший акцент на необходимости для биохимиков начать понимать, как они могут адаптировать свои проблемные области к области квантовых компьютеров. Более пятидесяти квантовых алгоритмов были идентифицированы в Зоопарке квантовых алгоритмов (2019), где алгоритмы Харроу-Хассидима-Ллойда (HHL) обещают экспоненциальное ускорение по сравнению с классическими компьютерами. Так же, как алгоритмы машинного обучения предлагают биохимикам возможность разумно просеивать миллионы точек данных с гораздо большей эффективностью, чем наивный метод грубой силы, квантовый компьютер, использующий квантовые алгоритмы для машинного обучения, имеет очевидные преимущества (Niu, 2019) .

Значение квантовых алгоритмов можно увидеть в том, как алгоритмы HHL могут решать систему линейных уравнений за логарифмическое время. Конечно, для обеспечения такого ускорения необходим ряд предварительных условий, но существуют такие проблемы, как инженерные проблемы, и они, несомненно, будут решены со временем. Точно так же квантовый алгоритм с полиномиальным временем был предложен для оценки определенных топологических характеристик данных, в первую очередь чисел Бетти (Lloyd et al., 2016), которые подсчитывают количество дыр и пустот по множеству измерений диаграммы рассеяния.

Подобно тому, как фармакологические корпорации получают прибыльные выгоды от интеллектуальной собственности после успешного открытия лекарств, квантовые компьютеры могут стать машинами, которые могут генерировать такую ​​прибыльную интеллектуальную собственность гораздо более эффективным образом (Solenov, 2019). Потребность биохимиков, компьютерных ученых и инженеров-электриков в переговорах между университетами и исследовательскими центрами о начале разработки этих квантовых компьютеров становится все более насущной. При правильном использовании этих компьютеров в области химии существуют значительные финансовые и научные возможности.

Заключение
Многие методологии in silico еще не готовы к сбоям, отчасти из-за их зависимости от передовых технологий. Поэтому очень важно, чтобы те, кто их использует, сохраняли актуальность своих навыков. Машинное обучение, несомненно, предлагает биохимикам широкие возможности бороться с токсичностью гораздо более эффективно, чем раньше. Однако приближаются новые технологии, которые в случае успеха могут даже подорвать классические подходы к машинному обучению.

Стратегия поиска
Поиск текущих рецензируемых статей за 2010–2019 годы проводился через онлайн-библиотеку Сиднейского университета. Этими базами данных были PubMed, International Pharmaceutical Abstracts, MedicinesComplete, BMJ Learning и ProQuest Computing. Google Scholar также использовался для поиска статей в свободном доступе. Для поиска статей использовались следующие условия поиска: токсичность, фармакология машинного обучения, открытие лекарств, квантовое машинное обучение, генеративные состязательные сети и так далее. Производные от этих терминов использовались для обеспечить получение исчерпывающих результатов.

Источники
Анвар С., Хван К., Сон Вонён (2015). Структурированное сокращение глубоких сверточных нейронных сетей. Журнал о новых технологиях в вычислительных системах - специальный выпуск об аппаратном обеспечении и алгоритмах для работы на кристалле. Том 13, выпуск 3:32.

Анон (2018). ProTox-II - Прогноз токсичности химических веществ. Доступно по адресу: http://tox.charite.de/protox_II/ (по состоянию на 3 октября 2019 г.).

Анон (2019). Поло-клуб науки о данных. Доступно по адресу: https://poloclub.github.io/ganlab/ (по состоянию на 5 октября 2019 г.).

Анон (2019). Зоопарк квантовых алгоритмов. Доступно на: http://quantumalgorithmzoo.org/ (по состоянию на 7 октября 2019 г.).

Аруте Ф., Арья К., Баббуш Р., Бэкон Д., Бардин Дж. К., Барендас и др. (2019). Квантовое превосходство с использованием программируемого сверхпроводящего процессора. Доступно по адресу: https://www.nature.com/articles/s41586-019-1666-5.pdf (по состоянию на 30 октября 2019 г.)

Браунли Дж (2019). Как определить и диагностировать режимы отказа GAN. Доступно по адресу: https://machinelearningmaster.com/practical-guide-to-gan-failure-modes/. (по состоянию на 1 октября 2019 г.).

Браунли Дж (2019). Как исследовать скрытое пространство GAN при создании лиц. Доступно по адресу: https://machinelearningmaster.com/how-to-interpolate-and-perform-vector-arithmetic-with-faces-using-a-generative-adversarial-network/ (по состоянию на 4 октября 2019 г.).

Фрэнсис Х (2015). Австралийские исследователи совершают прорыв в квантовых вычислениях, открывая путь к созданию первых в мире микросхем. Доступно по адресу: https://www.smh.com.au/technology/australian-researchers-make-quantum-computing-breakthrough-paving-way-for-worldfirst-chip-20151005-gk1bov.html (последнее посещение - 8 октября. 2019).

Хуэй Дж (2018). GAN - Почему так сложно обучить генеративные состязательные сети !. Доступно по адресу: https://medium.com/@jonathan_hui/gan-why-it-is-so-hard-to-train-generative-advisory-networks-819a86b3750b. Доступ (3 октября 2019 г.).

Хуэй Дж (2018). GAN - Способы повышения производительности GAN. Доступно по адресу: https://towardsdatascience.com/gan-ways-to-improve-gan-performance-acf37f9f59b. (по состоянию на 3 октября 2019 г.).

Хуэй Дж (2018). GAN - подробный обзор гангстеров GAN (часть 2). Доступно по адресу: https://medium.com/@jonathan_hui/gan-a-comprehensive-review-into-the-gangsters-of-gans-part-2-73233a670d19. (по состоянию на 1 октября 2019 г.).

Хуэй Дж (2019). GAN - Что не так с функцией стоимости GAN? Доступно по адресу: https://medium.com/@jonathan_hui/gan-what-is-wrong-with-the-gan-cost-function-6f594162ce01. (по состоянию на 2 октября 2019 г.).

Чон М (2019). Tensorflow-GAN: основы генеративных состязательных сетей. Доступно по адресу: https://medium.com/@fabulousjeong/gan-with-tensorflow-basics-of-generative-adversarial-networks-d71bb9a4cae2 (по состоянию на 4 октября 2019 г.).

Карим А., Мишра А., Хаким Ньютон М. А., Саттар А. (2019) Эффективное прогнозирование токсичности с помощью простых функций с использованием неглубоких нейронных сетей и деревьев решений. ACS Omega 2019 (4), стр. 1874–1888.

Кристиади А (2019). Генеративные состязательные сети в TensorFlow. Доступно по адресу: https://wiseodd.github.io/techblog/2016/09/17/gan-tensorflow/. (по состоянию на 2 октября 2019 г.).

Кумар Н (2019). Наглядное доказательство универсальной аппроксимационной теоремы. Доступно по адресу: https://hackernoon.com/illustrative-proof-of-universal-approximation-theorem-5845c02822f6

(по состоянию на 4 октября 2019 г.).

Ллойд С., Гарнероне С. (2015). Квантовые алгоритмы топологического и геометрического анализа данных. Природы, 7, 10138.

Майр А., Кламбаур Г., Унтертинер Т., Хохрайтер С. (2015). Deep Tox: прогнозирование токсичности с использованием глубокого обучения. Границы науки об окружающей среде: 10.3389 / fenvs.2015.00080

Ниу М. Ю., Бойшо С., Смелянский В. Н., Невен Х. (2019). Универсальный квантовый контроль за счет глубокого обучения с подкреплением. Квантовая информация 5:33.

Пу Л., Надери М., Лю Т., Ву Х.К., Мухопадхьяй С., Брылински (2019) eToxPred: Подход, основанный на использовании машин, для оценки токсичности кандидатов в лекарства. Фармакологическая токсичность BMC. 2019 Jan 8; 20 (1); 2: DOI: 10.1186 / s40360–018–0282–6.

Салиманс Т., Гудфеллоу И., Заремба В., Чунг В., Рэдфорд А., Чен X (2016). Улучшенные методы обучения GAN. Достижения в системах обработки нейронной информации 29 (NIPS 2016).

Сильвер Д., Хубер Т., Шриттвизер Дж., Антоноглу И., Лай М., Гез А., Ланкто М. и др. (2017). Освоение шахмат и сёги путем самостоятельной игры с использованием общего алгоритма обучения с подкреплением. Доступно по адресу: https://arxiv.org/pdf/1712.01815.pdf (по состоянию на 3 октября 2019 г.).

Соленов Д., Брилер Дж., Шеррер Дж. Ф. (2019). Потенциал квантовых вычислений и машинного обучения для продвижения клинических исследований и изменения медицинской практики. Доступно по адресу: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6205278/pdf/ms115_p0463.pdf (по состоянию на 9 октября 2019 г.).

Ван Норден Р. (2018). Программное обеспечение превосходит тесты на животных при прогнозировании токсичности химических веществ. Доступно по адресу: https://www.nature.com/articles/d41586-018-05664-2#ref-CR1 (по состоянию на 5 октября 2019 г.).

У И, Ван Г (2018). Прогнозирование токсичности на основе машинного обучения: от описания химической структуры до анализа транскриптома. Международный журнал молекулярных наук: 19 (8): 2358.

Чжан Л., Чжан Х, Ай Х, Хуан Х (2018). Применение методов машинного обучения в прогнозировании токсичности лекарств. Актуальные темы медицинской химии. 18 (12).