Глубокое обучение для интеграции данных

Глубокое обучение для наук о жизни

Глубокое обучение для интеграции данных

Синергетический эффект интеграции данных с Deep Learning

Это третья статья из серии Глубокое обучение для наук о жизни. В двух предыдущих постах я показал, как использовать Глубокое обучение древней ДНК и Глубокое обучение для одноклеточной биологии. Теперь мы собираемся обсудить, как использовать несколько источников биологической информации, данные OMIC, чтобы добиться более точного моделирования биологических систем с помощью глубокого обучения.

Биологические и биомедицинские исследования принесли огромную пользу в последнее десятилетие благодаря технологическому прогрессу, обеспечивающему последовательность ДНК (ген омикс), экспрессию генов (транскрипт омикс), обилие белка (проте omics) и многие другие уровни биологической информации, обычно называемые OMIC. Несмотря на то, что отдельные слои OMIC способны ответить на многие важные биологические вопросы, их сочетание и последующие синергетические эффекты от их комплементарности обещают новое понимание поведения биологических систем, таких как клетки, ткани и организмы. Поэтому интеграция OMIC представляет собой современный вызов в биологии и биомедицине.

В этой статье я воспользуюсь глубоким обучением с Keras и покажу, как интеграция данных нескольких OMIC выявляет скрытые закономерности, не видимые в отдельных OMIC.

Отдельные ячейки создают большие данные

Проблема интеграции данных не нова для Data Science. Представьте, что мы знаем, что человек смотрит на определенные изображения, читает определенные тексты и слушает определенную музыку. Изображение, текст и звук - это очень разные типы данных, однако мы можем попытаться объединить эти типы данных, чтобы создать, например, лучшая рекомендательная система, которая обеспечивает более высокую точность отражения интересов человека. Что касается биологии и биомедицины, идея интеграции данных появилась здесь совсем недавно, однако она активно развивалась с биологической точки зрения, что привело к появлению нескольких интересных методологий, таких как mixOmics, MOFA, Слияние сетей подобия (SNF), OnPLS / JIVE / DISCO, Байесовские сети и др.

Одна проблема, с которой сталкиваются все вышеперечисленные интегративные методы OMIC, - это проклятие размерности, то есть невозможность работать в многомерном пространстве с ограниченным количеством статистических наблюдений, что является типичной установкой для биологических данных. анализ. Именно здесь технологии Single Cell OMIC очень полезны, поскольку они предоставляют сотни тысяч и даже миллионы статистических наблюдений (ячеек), как мы обсуждали в предыдущей статье, и таким образом обеспечивают действительно большие данные, идеально подходящие для интеграции .

Очень интересно, что такие мульти-OMIC одноклеточные технологии, как CITEseq и scNMTseq, предоставляют два и три уровня биологической информации, соответственно, от одних и тех же клеток. .

Интеграция данных CITEseq с глубоким обучением

Здесь мы выполним неконтролируемую интеграцию данных транскриптомики отдельных клеток (scRNAseq) и протеомики (scProteomics) из CITEseq, 8617 мононуклеарных клеток пуповинной крови (CBMC), используя Autoencoder, который идеально подходит для захвата крайне нелинейный характер данных OMIC с одной ячейкой. Мы рассмотрели преимущества использования автоэнкодеров для биологии одиночных клеток в предыдущем посте, но вкратце они связаны с тем фактом, что анализ одиночных клеток практически не контролируется. Мы начинаем с загрузки данных CITEseq отсюда, чтения их с помощью Pandas и преобразования журнала, что эквивалентно легкой нормализации. Как обычно, строки - это ячейки, столбцы - это мРНК или характеристики белка, последний столбец соответствует аннотации ячейки.

Теперь мы собираемся построить модель автоэнкодера с 4 скрытыми слоями, используя функциональный API Keras. Автоэнкодер имеет два входа, по одному для каждого уровня информации, то есть scRNAseq и scProteomics, и соответствующие два выхода, которые предназначены для восстановления входных данных. Два входных слоя отдельно линейно преобразуются в первом скрытом слое (что эквивалентно уменьшению размерности PCA), прежде чем они будут объединены во втором скрытом слое. Наконец, объединенные OMIC обрабатываются через узкое место автоэнкодера, и, наконец, размеры постепенно восстанавливаются до исходных в соответствии с симметрией «бабочки», типичной для автоэнкодеров.

В приведенном ниже коде для автоэнкодера важно отметить, что первый скрытый слой серьезно снижает размерность scRNAseq с 977 до 50 генов, в то время как scProteomics остается почти нетронутым, т.е. уменьшает размеры с 11 до 10. Узкое место еще больше. уменьшает общие 60 измерений после конкатенации до 50 скрытых переменных, которые представляют собой комбинации как мРНК, так и характеристик белка.

Здесь очень удобно то, что мы можем присвоить OMIC разные функции потерь, поступающие из разных статистических распределений, например комбинируя категориальные и непрерывные данные, мы можем применить категориальную перекрестную энтропию и среднеквадратичную ошибку соответственно. Еще одна замечательная особенность интеграции данных с помощью автокодировщиков заключается в том, что все OMIC знают друг о друге, поскольку веса для каждого узла / функции обновляются посредством обратного распространения в контексте друг друга. Наконец, давайте обучим автоэнкодер и добавим узкое место в tSNE для визуализации:

Сравнивая графики tSNE, полученные с использованием отдельных OMIC, с tSNE на узком месте автокодировщика, объединяющего данные, мы сразу видим, что интеграция в некоторой степени усредняет и усиливает отдельные OMIC. Например, пурпурный кластер будет трудно обнаружить, используя только данные scRNAseq, поскольку он не отличается от популяции синих клеток, однако после интеграции пурпурная группа клеток легко различима . В этом сила интеграции данных!

Интеграция данных scNMTseq с глубоким обучением

В то время как CITEseq включает два уровня информации на отдельных клетках (транскриптомика и протеомика), другая фантастическая технология, scNMTseq, доставляет три OMIC из одних и тех же биологических клеток: 1) транскриптомика (scRNAseq), 2) паттерн метилирования (scBSseq) и 3) Открытые участки хроматина (scATACseq). Исходные данные можно скачать отсюда.

Архитектура автоэнкодера аналогична архитектуре, используемой для CITEseq, только с одной особенностью: на входных слоях используется регуляризация исключения. Это связано с тем, что у нас упорядочено только ~ 120 ячеек, в то время как размерность пространства признаков составляет десятки тысяч, поэтому нам нужно применить регуляризацию, чтобы преодолеть проклятие размерности. Обратите внимание, что в этом не было необходимости для CITEseq, где у нас было ~ 8K ячеек и ~ 1K функций, так что ситуация прямо противоположная. Тем не менее, в целом scNMTseq - непростой случай для интеграции данных, хотя я твердо верю, что это только начало эры одноячеечных мульти-OMIC, и вскоре с помощью этой захватывающей технологии появится гораздо больше ячеек, поэтому лучше подготовиться.

Здесь из любопытства я добавил узкое место автоэнкодера, который объединяет три scNMTseq OMIC в методику нелинейного уменьшения размерности Uniform Manifold Approximation and Projection (UMAP), которая, кажется, превосходит tSNE в смысле масштабируемости для больших объемов данных. Мы сразу видим, что однородный в смысле экспрессии генов синий кластер разделяется на два кластера, когда scRNAseq объединяется с эпигенетической информацией из тех же клеток (scBSseq и scATACseq). Таким образом, кажется, что мы зафиксировали новую гетерогенность между клетками, которая была скрыта, если смотреть только на данные экспрессии генов scRNAseq. Может ли это быть новым способом классификации клеток в разных популяциях, используя всю сложность их биологии? Если да, то возникает вопрос: что такое популяция или тип клеток? Я не знаю ответа на этот вопрос.

Резюме

Здесь мы узнали, что многочисленные источники молекулярной и клинической информации становятся обычным явлением в биологии и биомедицине благодаря недавнему технологическому прогрессу. Следовательно, интеграция данных - это следующий логический шаг, который обеспечивает более полное понимание биологических процессов за счет использования всей сложности данных. Фреймворк глубокого обучения идеально подходит для интеграции данных благодаря действительно интегративному обновлению параметров посредством обратного распространения, когда несколько типов данных узнают информацию друг от друга. Я показал, что интеграция данных может привести к открытию новых закономерностей в данных, которые ранее не наблюдались в отдельных типах данных.

Как обычно, дайте мне знать в комментариях, если у вас есть конкретная любимая область в науках о жизни, которую вы хотели бы решить в рамках концепции глубокого обучения. Подписывайтесь на меня на Medium Николай Осколков, в твиттере @NikolayOskolkov и проверяйте коды для этого поста на моем github. Я планирую написать следующий пост о Байесовском глубоком обучении для безопасности пациентов в клинической диагностике, следите за обновлениями.

Глубокое обучение для интеграции данных

Глубокое обучение для наук о жизни