Дизайн и методология биоинформатической структуры - результаты моделирования машинного обучения для понимания канцерогенеза колоректального рака

В одной из предыдущих статей я сделал обзор проектирования и разработки комплексной биоинформационной структуры и конвейера машинного обучения для глубокого анализа и интерпретации данных микробиома. До сих пор я применял методологию и подробно разрабатывал технические результаты и интерпретацию ключевых биомаркеров, которые могут сыграть важную роль в понимании механизма резистентности к терапии у пациентов с диагнозом колоректальный рак (КРР). Эта статья будет следовать идентичному подходу для второго тематического исследования канцерогенеза CRC, охватывающего образцы, описанные той же гистологией тубулярной аденомы. Что касается обзора демографических данных, эта группа состояла из 23 представителей пациентов с предоперационной тубулярной аденомой (аденомой) и 21 образца с диагнозом послеоперационной новоразвитой аденомы (НДА).

* Примечание. Учитывая, что это тематическое исследование имеет тот же дизайн и реализацию, я подробно опишу только основной этап моделирования, функции с большим вкладом и результаты статистического анализа.

Результаты моделирования машинного обучения

Как упоминалось ранее, после применения методов нормализации данных и масштабирования я рассчитал коэффициенты альфа Кронбаха и каппа-коэффициенты Коэна соответственно. Ссылаясь на предыдущее определение, пороговые значения альфа-коэффициента Кронбаха можно объяснить на основе следующих этапов: ранний этап исследования (0,5 или 0,6/0,7); Прикладные исследования 0,8; При принятии важного решения 0.9. Обычно значение альфа Кронбаха > 0,75 считается приемлемым для исследований, связанных с микробиомом. С другой стороны, коэффициент каппа Коэна определяется следующими стадиями: ‹0,4 считается плохим; 0,4–0,75 считается от среднего до хорошего; ›0,75 представляет собой отличное согласование данных. Результаты этих расчетов представлены в таблице ниже:

Общие показатели производительности моделирования ML для предоперационной группы аденомы и послеоперационной NDA представлены в следующей таблице.

Кроме того, я также решил рассчитать метрики Precision, Recall и F1-Score для обеих подгрупп соответственно. Результаты отображаются в следующей таблице:

Как и в предыдущем примере с эффектом иммунотерапии, я также попробовал алгоритмы XGBoost и AdaBoost, которые не привели к существенным улучшениям по сравнению с подходом на основе леса, описанным выше. Поэтому я определил классификатор случайного леса на основе Python второй фазы как наиболее эффективный и выбрал получившиеся наиболее важные функции в качестве эталонного набора для дальнейшего статистического анализа.

Статистический анализ и результаты важных функций

Сравнение групп образцов Adenoma и NDA представило в общей сложности 86 уникальных родов. Впоследствии алгоритмом ML было выделено 28 из этих родов как наиболее важные признаки (32,6%), ранжированные в интервале статистически рассчитанного p-значения Бенджамини-Хохберга от 0,002 до 0,048 между группами. Поэтому в предоперационной группе аденомы я обнаружил Oscillospiraceae-UCG-002**, группу Anaerovoracaceae, Ruminococcus, Prevotella, Lachnospiraceae, группа FCS020 и Blautia как роды, биологически интересные для дальнейшего анализа и интерпретации. Соответственно, наиболее значимые роды среди послеоперационных образцов NDA принадлежат к Tyzzerella, Bifidobacterium и Lachnoclostridium.

** Примечание. Разработанная структура биоинформатики и конвейеры выявили некоторые неклассифицированные последовательности генома (UCG), которые необходимо дополнительно исследовать. Потенциально это может быть результатом примененного таксономического анализа и повторной аннотации необработанных прочтений по сравнению с обновленными эталонами бактерий с использованием справочной базы данных SILVA 138.1–16s (последнее обновление справочной базы данных от 27 августа 2020 г.).

Я завершил картину общего понимания, предоставив результаты статистического анализа обилия родов в устойчивых и неустойчивых группах, визуализированные на следующей диаграмме:

Биологический анализ и интерпретация

Наиболее привлекательным родом, обнаруженным в качестве важного признака между образцами пациентов с недавно развившейся аденомой и пациентов с тубулярной аденомой, у которых до клинического лечения была диагностирована тубулярная аденома, был Prevotella. Prevotella в основном присутствует в микробиоме ротовой полости, но обнаруживается в относительно большом количестве бактерий при раке проксимального отдела толстой кишки, что, согласно исследованиям, по-видимому, связано с повышенным содержанием клеток, продуцирующих IL17, в слизистой оболочки больных КРР. И наоборот, как упоминалось в исходной публикации, одно исследование Prevotella на трансгенных мышах показало, что этот род способствует дифференцировке клеток Th17, которые в первую очередь колонизируют кишечник и мигрируют в костный мозг, где они поддерживают прогрессирование множественной миеломы.

Заключение

Исследование, задокументированное в этой серии статей, представило междисциплинарный систематический подход и методологию наблюдения за механизмом лекарственной устойчивости CRC и канцерогенезом с использованием микробного состава, указанного на уровне рода. Используя концепции исследований в области биоинформатики, я разработал различные высокопроизводительные модели машинного обучения, чтобы помочь клиницистам эффективно анализировать разнообразие микробиома резистентных пациентов для устранения и предотвращения пролиферации опухоли, вновь развившейся аденомы, стимулирования воспаления и потенциального повреждения ДНК. В связи с этим я определил классификатор случайного леса как наиболее подходящий алгоритм для расширения возможностей последующих методов интерпретации значимости признаков. Релевантность важных характеристик, полученных из моделей, дополнительно наблюдалась с использованием природы стохастического алгоритма, где я получил дополнительные сведения о данных и ранги важности переменных. Кроме того, я включил анализ симбиотических бактерий, чтобы исследовать корреляцию и взаимодействие признаков (вклад совместных признаков в соответствии с классом специфической резистентности или аденомы).

До сих пор многие исследования указывают на важность существующих родов в микробиоме и намерены рассматривать их отдельно. Это вносит свой вклад в область прогностического моделирования в здравоохранении и указывает на различные перспективы лечения, поскольку наш совокупный анализ дает четкие результаты для родов, которые часто встречаются вместе в резистентной группе пациентов, а это означает, что резистентность не связана с наличием одного патогенного рода в микробиоме больного, но нескольких родов бактерий, живущих в симбиозе. Кроме того, наши результаты дополняют другие исследования, связанные с микробиомом, опубликованные в литературе, показывающие потенциал и обоснованность применяемого подхода.

Установленную методологию также можно использовать для невидимых данных о микробиоме, чтобы помочь онкологам принять решение о стратегиях лечения и после лечения для иммунотерапии и понимания лекарственной устойчивости. Что касается дальнейших действий, я хотел бы подчеркнуть потенциал улучшения разработанного анализа симбиотических бактерий, чтобы предоставить комбинированный обзор прогностической способности модели и выявить дополнительные глубокие корреляции данных и знания.

Спасибо, что прочитали эту статью и всю серию в целом. Я считаю, что он ясно и всесторонне охватывает основные концепции предлагаемой методологии и технического конвейера.

Спасибо за такую ​​поддержку, и я был бы признателен, если бы вы нашли время, чтобы прокомментировать, поделиться статьей и подключиться для дальнейшего обсуждения и сотрудничества. Не стесняйтесь делиться своими мыслями и опытом по этому поводу.

Часть 1 - Вводная статья - Обзор структуры биоинформатики и методологии

Часть 2. Разработка и методология биоинформатической структуры. Результаты моделирования машинного обучения для механизма лекарственной устойчивости колоректального рака

Первоначально опубликовано на https://www.linkedin.com.