Использование многомерных данных в науках о гигиене окружающей среды

Понимание судьбы и переноса химических веществ в окружающей среде, а также их воздействия на здоровье человека необходимо для оценки их потенциального вреда. Исследования доктора Йике Шена и его коллег из Колумбийского университета в Нью-Йорке, США, показывают связь между уровнем металлов в крови и изменениями в микробиоме кишечника у детей. Шен и его коллеги также описывают улучшения в моделях прогнозирования состояния окружающей среды с включением отпечатков пальцев расширенной связи (ECFP) пестицидов и представляют новую усовершенствованную модель глубокого обучения с автоматическим кодировщиком, которая может учиться на сложных данных науки об окружающей среде и здравоохранении.
Люди ежедневно подвергаются воздействию сотен химических веществ, включая фармацевтические препараты, средства личной гигиены, металлы (такие как свинец, ртуть и кадмий) и пестициды. Воздействие этих химических веществ на здоровье человека может включать изменение микробиома кишечника — микробного состава, в основном бактерий, в кишечнике. Эти изменения напрямую влияют на пищеварение и усвоение пищи, но также могут косвенно влиять на настроение, поведение, когнитивные функции и психическое здоровье через эндокринную и нервную системы. Установление потенциального вреда химических веществ важно для защиты людей и окружающей среды, особенно с помощью новых методов точности вычислений для здоровья окружающей среды. Здесь мы рассмотрим широкомасштабное исследование доктора Йике Шена из Колумбийского университета, Нью-Йорк, США, и его коллег по оценке воздействия окружающей среды и его воздействия на здоровье с использованием статистических методов и методов машинного обучения.

Как химические вещества влияют на микробиом кишечника?

В нескольких исследованиях оценивалось влияние химических веществ на микробиом кишечника. Шен и его коллеги провели одно из первых эпидемиологических исследований на здоровых детях, чтобы изучить влияние металлов окружающей среды на микробиом кишечника детей. Они использовали генетическое секвенирование, чтобы идентифицировать бактерии в микробиоме кишечника детей в возрасте от шести до семи лет, и рассмотрели связь между этим составом и уровнем металлов в детской крови.

Исследование показало, что высокий уровень марганца (Mn) в крови был связан с более низким уровнем бактерий из трех семейств (уровень классификации, включающий несколько родов) и одного типа (более высокий уровень классификации, включающий несколько семейств) и повышенным обилие четвертой семьи. Высокая концентрация селена (Se) была связана с более высокой относительной численностью двух типов. В исследовании также изучалось влияние воздействия Mn и Se на мать во время беременности. Было обнаружено, что оба они влияют на микробиом кишечника детей, хотя затронуто меньше типов.

«Люди ежедневно подвергаются воздействию сотен химических веществ, включая фармацевтические препараты, средства личной гигиены, металлы и пестициды».

Изучая влияние уровней металлов в крови на отдельные виды бактерий, Шен и его коллеги использовали метагеномное секвенирование дробовика. Этот метод позволяет секвенировать короткие последовательности ДНК из большого количества микробов, содержащихся в биологических образцах, таких как микробиом кишечника, без необходимости культивирования отдельных микробов. Метод идентифицирует «семейства генов» — группы эволюционно связанных последовательностей, кодирующих белки. Вклад отдельных видов в каждое «семейство генов» был определен и назван «видами, предполагающими семейство генов». Этот анализ показал, что более высокие уровни кадмия (Cd) в крови детей были связаны с более высокой относительной численностью 11 видов, относящихся к семейству генов, включая несколько видов родов Bacteroides и Bifidobacterium. . Три металла, Cd, Se и свинец (Pb), имели положительную связь с видами, предполагающими семейство генов, которые могут быть как полезными, так и вредными, в зависимости от контекста (например, Bacteriodes vulgatus и Eubacterium rectale). Высокое содержание Cd и Pb в детской крови положительно связано с потенциально опасными видами, такими как Flavonifractor plautii. Полученные данные свидетельствуют как о долгосрочной, так и о краткосрочной связи между воздействием металлов и микробиомом кишечника в детстве, причем более тесная связь наблюдается при более позднем воздействии.

Однако прямое изменение кишечного микробиома — не единственный способ воздействия химических веществ из окружающей среды на здоровье человека. Антибиотики, выбрасываемые в окружающую среду, могут привести к развитию устойчивости бактерий к антибиотикам, что, в свою очередь, может изменить микробиом кишечника при попадании внутрь. Шен и его коллеги исследовали воздействие поливной воды, содержащей антибиотики, на уровне почвы на бактериальное сообщество растений салата (в побегах, корнях, почве вокруг корней [ризосфера] и насыпной почве [почва вне ризосферы]). Бактериальное разнообразие в насыпной почве и побегах салата уменьшалось в воде, содержащей антибиотики, но оставалось неизменным в ризосфере и корнях салата. Эти неизменные ризосферные и корневые микробиомы могут быть связаны с веществами, выделяемыми корнями, которые защищают и стабилизируют бактериальное сообщество, делая его более устойчивым к внешним стрессам. При рассмотрении количества и относительной распространенности генов устойчивости к антибиотикам и мобильных генетических элементов (МГЭ; генов, которые могут передаваться между видами), они были выше в ризосфере и насыпной почве, чем в образцах корней и побегов салата. При воздействии антибиотиков гены множественной лекарственной устойчивости снижались до неопределяемого уровня в ризосфере, но МГЭ постоянно увеличивались. Другое исследование, проведенное Шеном и его коллегами, показало, что риск того, что урожай салата будет обогащен генами, устойчивыми к антибиотикам, был выше при поливе сверху, чем при поливе по поверхности почвы.

Изучение судьбы и переноса загрязняющих веществ в окружающей среде

Понимание судьбы и переноса химических веществ имеет важное значение при оценке их потенциального вреда для здоровья человека. Однако большое количество химических веществ делает невозможным их оценку с использованием традиционных лабораторных методов и методов тестирования на животных. Модели машинного обучения («in silico») обеспечивают новый подход к прогнозированию воздействия химических веществ, таких как их биоаккумуляция и рассеивание в окружающей среде. Машинное обучение включает в себя ввод установленных данных в компьютерную модель, а затем проверку их точности для классификации «проверочного» набора данных — нового набора данных, где известны «правильные» классификации. По мере исправления неточных классификаций модели она учится и становится все более точной. Шен и его коллеги взяли четыре модели машинного обучения, которые предсказывают периоды полураспада пестицидов в растениях, и разработали их для использования отпечатков пальцев расширенной связи (ECFP) пестицидов (идентификаторы или «отпечатки пальцев», которые являются общими для пестицидов), температуры, типа растения и четыре класса компонентов растений (поверхность растений, внутренняя часть, корень, неклассифицированные) в качестве входных данных модели. Включение ECFP в модель имеет два преимущества: 1) прямое использование молекулярной структуры повысит применимость модели, поскольку многие физико-химические свойства недоступны, и 2) входные характеристики на основе ECFP преодолевают трудности прямого связывания половинного рассеивания пестицидов. жизни/химические факторы биоаккумуляции с химическими структурами. Результаты исследования показывают, что входные характеристики на основе ECFP в сочетании с моделью регрессионного дерева с градиентным усилением (GBRT-ECFP), успешно предсказавшие интервалы полураспада пестицидов в растениях, могут помочь установить диапазоны интервалов до сбора урожая для пестицидов (время, необходимое между последним применением и сбором урожая). ). Еще одним применением, о котором сообщают Шен и его коллеги, является прогнозирование факторов концентрации корней (соотношение концентрации загрязняющих веществ в корнях и почве) органических (углеродосодержащих) загрязнителей в сельскохозяйственных культурах (включая пшеницу, морковь, редис, репу, шпинат, сельдерей, китайский капуста, кукуруза, тыква и ячмень).

Могут ли вычислительные модели оценить опасность, которую представляют химические вещества?

Одной из мер, используемых для обозначения опасности, которую представляет химическое вещество для человека и окружающей среды в целом, является «концентрация опасности для 50», или HC50. HC50 рассчитывается с использованием эффективной концентрации 50 % (EC50; концентрация химического вещества, необходимая для достижения 50 % его максимального эффекта, например, 50 % снижения роста водорослей) и летальной концентрации 50 % (LC50; необходимая концентрация химического вещества). убить 50% группы за период наблюдения).

«Усовершенствованные модели машинного обучения могут стать бесценным ресурсом в научных исследованиях данных о состоянии окружающей среды».

Оценка HC50 химического вещества требует трудоемких лабораторных исследований и часто включает испытания на животных. Традиционные модели количественных взаимосвязей структура-активность (QSAR) (прогностические математические модели, которые обычно являются линейными) имеют свои ограничения и с трудом фиксируют сложные нелинейные взаимосвязи. Доступны модели машинного обучения, которые могут фиксировать сложные нелинейные отношения с использованием нескольких деревьев решений, таких как «случайный лес». Однако передовые модели машинного обучения, разработанные Шеном и его коллегами, повышают точность прогнозов, тем самым снижая потребность в тестировании на животных.

Шен и его коллеги разработали новый метод прогнозирования HC50 химического вещества с использованием более продвинутого вычислительного моделирования. Новая техника известна как модель глубокого обучения автоэнкодера (или искусственной нейронной сети). Для разработки модели использовались данные об УВ50 для 1815 химических веществ, содержащихся в базе данных USEtox, и их 691 физико-химическая характеристика. Модель сжимает эти 691 функцию без потери важной информации и «встраивает» их в низкоразмерное (только важные функции, необходимые для изучения/представления данных) скрытое пространство (пространство, где могут быть закодированы значимые представления введенных функций). После внедрения «химические вложения» изучаются (процесс, называемый кодированием), и их можно использовать для реконструкции (или декодирования) химических признаков. Этот метод кодирования-декодирования позволяет модели выполнять нелинейное уменьшение размерности, то есть он может уменьшить количество переменных, вводимых из сложного источника данных, тем самым изучая осмысленные представления химических свойств, которые другие модели не могут изучить.

Усовершенствованные модели машинного обучения могут стать бесценным ресурсом в научных исследованиях данных в области гигиены окружающей среды, учитывая размер и сложность задействованных источников данных. Исследования Шен и ее команды продолжают приносить очень ценные результаты в науке о данных о состоянии окружающей среды.

Как вы думаете, насколько широко может применяться ваша новая модель автоэнкодера?
Модель автоэнкодера можно использовать для обучения представлению многомерных данных. Репрезентативное обучение активно используется в других областях, но еще не в науках о гигиене окружающей среды. Одной из самых активных тем в области наук о здоровье сейчас является омика. Omics — это широкая научная область, которая измеряет биологические молекулы с высокой пропускной способностью. Примеры омиков включают метагеномику, метатранскриптомику, метаболомику, эпигеномику и т. д. Данные омиков могут служить биомаркерами в ответ на воздействие окружающей среды или последствия для здоровья, и эти данные являются многомерными. Например, масс-спектрометрия с высоким разрешением измеряет тысячи химических воздействий одновременно, а метагеномика дробовика может секвенировать сотни видов, потенциальных путей и тысяч штаммов. Наша модель автоэнкодера может быть использована в омике. В настоящее время я разрабатываю исследование под названием «Обучение репрезентации при многомерном воздействии, мультиомике и результатах для здоровья в гигиене окружающей среды».

Каковы следующие шаги вашего исследования?
В следующие пять-десять лет моя миссия – защитить здоровье человека и окружающей среды, используя новые вычислительные инструменты для распутывания сложных взаимосвязей между размерные данные о воздействии и омике и результаты для здоровья. Одно из будущих направлений связано с машинным обучением вышеупомянутого репрезентативного обучения в многомерных омических данных для прогнозирования последствий для здоровья и изучения их закономерностей в отношении воздействия. Другой неотъемлемой частью является направление эпидемиологии микробиома, объединяющее данные мультиомики микробиома в связи с химическим воздействием окружающей среды и оценивающее, может ли микробиом опосредовать воздействие окружающей среды и неблагоприятные последствия для здоровья.

Ссылки

  • Shen, Y, Lane, HE, Shrubsole, MJ, et al, (2022) Ассоциации металлов детской и перинатальной крови с микробиомами кишечника детей в когорте беременных в Канаде. Environmental Health Perspectives, 130(1), 017707–1–10. doi.org/10.1289/EHP9674
  • Гао, Ф., Чжан, В., Баккарелли, А.А., Шен, Ю. (2022) Прогнозирование химической экотоксичности путем изучения химических представлений скрытого пространства. Environmental International, 163, 107224. doi.org/10.1016/j.envint.2022.107224
  • Shen, Y, Zhao, E, Zhang, W, et al, (2022) Прогнозирование периодов полураспада пестицидов в растениях с помощью моделей машинного обучения. Journal of Hazardous Materials, 436, 129177. doi.org/10.1016/j.jhazmat.2022.129177
  • Гао, Ф., Шен, Ю., Саллах, Дж. Б. и др., (2022) Прогнозирование коэффициентов концентрации органических загрязнителей в корнях растений с помощью моделей машинного обучения. Journal of Hazardous Materials, 424, 127437. doi.org/10.1016/j.jhazmat.2021.127437
  • Shen, Y, Ryser, ET, Li, H, Zhang, W, (2021)Сборка бактериального сообщества и гены устойчивости к антибиотикам в системе салат-почва при воздействии антибиотиков. Science of the Total Environment, 778, 146255. doi.org/10.1016/j.scitotenv.2021.146255
  • Гао, Ф., Шен, Ю., Саллах, Дж. Б. и др., (2021) Прямой прогноз биоаккумуляции органических загрязнителей в корнях растений из почв с помощью моделей машинного обучения, основанных на молекулярных структурах. Environmental Science & Technology, 55, 16358–16368. doi.org/10.1021/acs.est.1c02376
  • Shen, Y, Stedtfeld, RD, Guo, X, et al, (2019) Фармацевтическое воздействие изменило гены устойчивости к антибиотикам и бактериальные сообщества в тепличном салате с поверхностным и верхним орошением почвы. Environmental International, 131, 105031. doi.org/10.1016/j.envint.2019.105031

Научно-исследовательские цели

Доктор Шен объединяет воздействие, мультиомику и машинное обучение для оценки влияния воздействия окружающей среды на здоровье человека.

Финансирование

NIEHS R01ES027845, R35ES031688 и P30ES009089 (Гранты присуждены Андреа А. Баккарелли)

Основные сотрудники

  • Доктор Андреа А. Баккарелли
  • Доктор Вэй Чжан
  • Доктор Фэн Гао

Био

Д-р Йике Шен – квалифицированный ученый-эколог, специализирующийся на данных о состоянии окружающей среды. В настоящее время она является ученым-исследователем с докторской степенью в Департаменте наук об окружающей среде и гигиене Колумбийского университета в городе Нью-Йорк. Она получила докторскую степень в области экологической токсикологии в Университете штата Мичиган. Она получила степень бакалавра экологических наук в Университете Альберты.

Контакты
630 West 168th Street
P&S Building, Room 16–416
Нью-Йорк, NY 10032, США

E: [email protected]
T: +1 517 488 9282
W: yikeshen.github.io
Twitter: @shen_yike