Прогнозирование заболеваний до того, как они возникнут

Использование генетики с помощью ИИ

Люди постоянно стремятся к определенности. Где мы берем еду? В какой университет я пойду? Когда я снова смогу жить нормальной жизнью? Все вопросы, в которых мы хотим быть уверены.

Недавно мы осознали, насколько сильно полагаемся на достоверность. Психология перед лицом неуверенности из-за COVID. Мы теряем неуверенность только тогда, когда сталкиваемся с чем-то и не знаем об этом. Если мы никогда не сталкиваемся с чем-то, мы не беспокоимся об этом.

  1. У вас на теле большая родинка. Это здесь. Вы постоянно задаетесь вопросом, не рак ли это. Неуверенность.
  2. Ваша жизнь нормальная. Уверенность. Три недели спустя ваш врач говорит вам: «В течение последнего месяца в вашем теле рос рак». Как долго мне жить? Могли ли мы распознать это раньше? Что я буду делать в остальное время? Неуверенность.

Для нашего психического здоровья это здорово, что мы не подвергаем все сомнениям постоянно. В то же время осторожность может привести к раннему вмешательству и спасению жизней. Полная уверенность в отношении жизни и смерти никогда не будет. Но…

У нас есть возможность действовать на опережение. Распознавайте болезни как можно раньше и начинайте лечение. Мы просто очень отреагировали. Я в этом уверен.

Наш подход к лечению заболеваний

Мы всегда были реактивными. Только при появлении симптома мы предпримем действия, стоившие жизни.

Ответы уже есть. Нам не нужно ждать, когда нас ждут сюрпризы. Все дело в наших генетических данных. Мы должны начать анализировать наши индивидуальные данные, делать выводы и быть более уверенными в будущих проблемах, которые наше тело бросит нам.

Обзор генома

У каждого из нас есть определенный геном, содержащий нашу ДНК, заключенную в хромосомы. ДНК состоит из четырех букв (нуклеотидов), которые образуют пары (A - T, C - G). Эти буквы обозначают аминокислоты. Аминокислоты кодируют белки. Белки выполняют все функции нашего организма.

ДНК каждого человека похожа на 99%. Что отличает нас, так это небольшие вариации в нашем коде (например, буква T вместо G). Наша ДНК также может отличаться, когда происходят мутации. Вставки, удаления и дублирования буквы при копировании ДНК могут заставить наш организм вырабатывать нежелательные белки.

Нас интересуют эти геномные вариации и мутации.

SNP: однонуклеотидные полиморфизмы

SNP - это единственное различие в одном гене, которое присутствует более чем у 1% населения. Например, нуклеиновое основание цитозина в определенном гене может существовать у 20% населения, тогда как другие 80% имеют аденин. Это может быть разница между голубыми или карими глазами.

В среднем у нас частота составляет один SNP на 1000 азотистых оснований. Большинство SNP встречаются между нашими генами, и мы полагаем, что они не влияют на наш организм. Скорее действует как биологический маркер, помогая исследователям находить гены, связанные с заболеваниями.

Мы пытаемся обнаружить новые SNP и оценить их влияние на определенные заболевания с помощью общегеномных ассоциативных исследований (GWAS).

Стоимость секвенирования геномов (понимания порядка всех азотистых оснований) значительно снижается, что приводит к дополнительным исследованиям. И большие достижения в точной медицине - как мы можем адаптировать медицину к тому, как конкретно реагирует ваше тело.

Есть два типа болезней

  1. Простые заболевания. Только один SNP вызывает заболевание (например, серповидно-клеточная анемия, муковисцидоз). Поскольку существует только один вариант, возможность использовать новые технологии, такие как CRISPR-CAS 9, для лечения болезни - это возможное будущее.

2. Сложные заболевания - несколько SNP способствуют возникновению одного заболевания (например, рака, сердечных заболеваний, диабета, шизофрении, болезни Альцгеймера). Гораздо сложнее отследить, какие SNP вызывают проблему, и, следовательно, лечить ее.

Нас интересуют сложные заболевания

Смерть от:

  • Болезни сердца - 17,9 миллиона
  • Рак - 10 миллионов
  • Диабет - 1,6 миллиона

Мы можем спасти много жизней. Для сравнения: 4,4 миллиона человек страдают серповидно-клеточной анемией.

Современный подход к изучению SNP для диагностики рака

Мы заметили мутации в генах TP53 и VHL, оба являются опухолевыми супрессорами, которые помогают контролировать скорость деления и роста клеток. Определенные SNP влияют на определенные заболевания: NCOR1, GATA3 - это гены, коррелированные с раком груди. То же самое и с нераковыми заболеваниями.

Проблема: по мере того, как мы смотрим на все больше и больше случаев, касающихся SNP и гаплотипов (два SNP, обнаруженных в одной хромосоме), мы не можем сделать вывод, что мутация / вариант в этих генах вызывает рак.

Факторы окружающей среды и комбинации SNP все больше и больше способствуют развитию рака. Даже у пациентов из группы высокого риска. Опять же, сложные заболевания основаны на нескольких SNP и их влиянии. Мы не можем смотреть на отдельные мутации, чтобы оценить чей-то риск развития какого-либо сложного заболевания.

Может быть мутация в гене, коррелированном с раком. Но ген может никогда не проявиться, если пациент не живет в среде с высоким уровнем загрязнения. Это может зависеть от того, есть ли у кого-то другой конкретный SNP или его диета.

Новичок в блокаде: оценка полигенных рисков

Используя геномные данные и несколько других факторов, создается фиксированный алгоритм для оценки чьего-либо риска возникновения сложного заболевания. Illumina, 23 и Me изучают оценку полигенного риска, чтобы помочь в ранней диагностике.

Этап 1: проверка

Для контрольной и экспериментальной группы данные о SNP собираются через GWAS или биобанк. Затем алгоритм суммирует вклад конкретных SNP в определенное заболевание, наблюдаемый с помощью данных.

Фиксированная модель может принимать только такое количество данных, что приводит нас к проблеме № 1, что нам нужно выбирать SNP для включения и исключения. Это делается с помощью отношения шансов. В исследование включены SNP с коэффициентом нечетности ›1,3. Это означает, что мы можем упустить потенциально важные SNP.

Используя ключевые SNP и их влияние, мы можем создать характеристическую кривую принимающего оператора (ROC). Это строит отдельные точки для ложноположительных и истинно-положительных результатов из матрицы неточностей при определенных порогах🤔.

Ключевой вывод: учитывая кривую ROC, мы можем определить площадь под кривой (AUC). Чем правее вы находитесь на этой кривой, тем выше вероятность развития этого заболевания.

Алгоритмы могут быть:

  1. Взвешенный (лучший) - определенные SNP вносят больший вклад в заболевание.
  2. Невзвешенный - считается, что все SNP оказывают одинаковое влияние.

Этап 2: проверка

Разработанный алгоритм ✅, представленный кривой ROC ✅. Теперь мы тестируем на экспериментальной группе, смотрим, насколько хорошо работает алгоритм, и вносим коррективы.

Проблемы

В настоящее время точность оценки сложных заболеваний с использованием шкалы полигенного риска составляет 60–70%. Это отстой.

  • Алгоритм не учитывает многомерные данные: комбинация SNP, факторы окружающей среды, питания и семейного анамнеза исключаются из прогноза.
  • В алгоритм можно включить только определенное количество SNP.

Большой и лучший ребенок на блоке: машинное обучение

Машинное обучение, подполе ИИ, предназначено для придания машинам человеческого интеллекта. Вместо того, чтобы кодировать каждый сценарий, мы хотим понять ключевые особенности, которые способствуют определенным заболеваниям. Картирование связи определенных SNP и факторов с их воздействием при сложных заболеваниях.

Машинное обучение может принимать многомерные данные (SNP + другие факторы), что позволяет делать более точные прогнозы. Две самые многообещающие модели - машины глубокого обучения и опорных векторов (SVM).

У SVM была 84% точность диагностики диабета по сравнению с 71% полигенной оценки риска! Искусственная нейронная сеть (ИНС) смогла диагностировать ожирение с точностью 99%. СУМАСШЕДШИЙ!

Процесс машинного обучения

  1. Сбор данных - из GWAS или биобанка
  2. Очистка данных - удаление крайне редких SNP, выбор функций (какие входные данные / точки данных следует учитывать в нашем прогнозе)
  3. Выберите модель - SVM, нейронные сети, логистическая регрессия и т. Д.
  4. Создайте предиктор - это пример модели нейронной сети. Будут вводиться индивидуальные SNP, комбинации SNP и коэффициенты. Модель предскажет, есть у пациента заболевание или нет. Постоянно подстраиваясь, NN будет определять наиболее важные факторы и SNP, взвешивая их соответственно. Результаты будут представлены на графике AUC.

5. Тест - мы снова хотим проверить нашу нейронную сеть, оценить, могут ли быть несоответствия в данных или другая модель будет работать лучше.

Будущее

Мы можем использовать наши геномные данные и машинное обучение для прогнозирования одного риска заражения определенной болезнью 🤯.

Последствия и дополнения:

  • Раннее лечение - при таких заболеваниях, как рак, раннее выявление распространения является ключевым моментом и может быть разницей между жизнью и смертью.
  • Точная медицина - мы сможем поставить конкретный диагноз на основе вашего генетического кода и образа жизни.
  • Фармакогеномика - определение того, как люди будут реагировать на определенные лекарства, будут ли возникать вредные побочные эффекты для определенных людей? Подействуют ли определенные лекарства лучше на людей с определенными SNP
  • Эпигенетика - Как экспрессия различных вариантов генов влияет на их влияние на сложные заболевания?
  • Уверенность - больше никаких сюрпризов!

Просыпаешься и плюешь в трубку. Используя секвенирование следующего поколения или микроматрицы, мы видим любые SNP или мутации, существующие в вашем геноме. Эти данные анализируются алгоритмом машинного обучения ... У вас нет рака. Дыхание.

Давайте воплотим это в реальность.

Ключевые выводы:

  • Сложные заболевания вызваны множеством вариаций в нашем геноме.
  • Сложные заболевания ежегодно уносят миллионы жизней
  • Мы можем анализировать наши геномные данные с помощью ИИ, чтобы оценить наш риск развития определенного заболевания.
  • Эта информация может помочь персонализировать лечение, начать вмешательство раньше и спасти жизни.
  • Ничего из этого не происходило раньше, потому что мы всегда реагируем: мы смотрим на симптомы, а не на генетические данные, и используем неточные инструменты для чтения огромного количества данных, которые у нас есть.

Прежде чем ты уйдешь