В конце 1960-х годов наступила эпоха, когда компьютеры стали поддерживать принятие решений. Термин аналитика начал набирать популярность и развивался с годами. Однако за последние два десятилетия наблюдался экспоненциальный рост сбора и использования данных. Доступность облачных систем данных и платформ обработки данных сыграла решающую роль в построении новых бизнес-экосистем, порождающих новые отрасли.

С годами приложения машинного обучения развились до такой степени, что его подобластями стали технологии, которые тесно связаны с нашей повседневной жизнью, такие как распознавание изображений, поиск и т. д. Эти технологии используют прошлые данные для прогнозирования будущих результатов и работают почти во всех сферах. промышленность.

Использование машинного обучения (МО) в здравоохранении постепенно распространяется на различные подразделения здравоохранения, начиная от диагностики и прогнозирования и заканчивая НИОКР и эпидемиологией. Хотя врачи и исследователи знают о факторах, связанных с тяжелыми заболеваниями, машинное обучение продемонстрировало свою эффективность в подтверждении сомнений и пролило свет на новую информацию из предыдущих наборов данных. В основе алгоритмов машинного обучения лежат математические модели, которые существуют уже несколько десятилетий.

В этом блоге я загляну за кулисы машинного обучения, используя простой кардиологический набор данных, содержащий различные измерения и информацию о том, выжил ли пациент или нет.

Какой алгоритм машинного обучения применить к обучающему набору данных, зависит от характера проблемы, поскольку каждый алгоритм служит уникальной цели. Здесь я не буду вдаваться в подробности различных типов алгоритмов машинного обучения, так как я сосредоточусь на применении одного метода (логистической регрессии) для работы с нашим набором данных. Логистическая регрессия (ЛР) может помочь нам определить измерения и факторы, которые в значительной степени способствуют возникновению тяжелых симптомов, ведущих к смерти. Но как LR помогает нам? Проще говоря, LR использует логарифмическое отношение шансов (вероятность возникновения двух событий, например, пройдено/не пройдено) и итеративную максимальную вероятность (наиболее оптимальный способ подбора распределения) для прогнозирования бинарного результата.

При запуске команды glm для прогнозирования вероятности смерти на основе всех измерений (переменных) модель отмечает три основных фактора, (возраст, фракция выброса и креатинин сыворотки), связанных со смертью в обучающий набор данных. Когда прогнозы модели сравниваются с набором тестовых данных, мы получаем точность 81%. Ключевым выводом из матрицы путаницы является то, что модель предсказывает каждый из результатов с точностью более 50%, однако общая точность модели далека от той, которая требуется в медицинских учреждениях, где ошибочно идентифицированные случаи могут представлять опасность. серьезный риск.

Наша модель хороша для прогнозирования пациентов, которые могут выжить, поскольку она точно предсказала 83% выживших пациентов из тестовой выборки. Чтобы повысить точность модели, нам нужно увеличить размер выборки и обогатить набор данных, добавив больше измерений.

Биология болезней

В реальных условиях здравоохранения эти результаты не имеют большого значения, поскольку отмеченные переменные не являются неожиданностью. Аномальные уровни фракции выброса и креатинина в сыворотке могут способствовать тяжелому заболеванию. Креатинин является побочным продуктом креатинфосфата, который возникает вследствие белкового обмена в мышечных тканях. Нормальный уровень креатинина в крови может колебаться от 0,84 до 1,21 мг/дл, и этот диапазон немного различается между полами.

Нормально функционирующие почки регулярно фильтруют креатинин, но осложнения, такие как заболевание почек, могут привести к повышению уровня креатинина в сыворотке крови. Более высокие уровни креатинина в сыворотке могут указывать на ряд проблем, включая снижение притока крови к почкам, что приводит к повышению уровня креатинина из-за плохой фильтрации.

Фракция выброса — это мера процента крови, покидающей сердце при его сокращении. Это один из многих тестов, которые врач может использовать для оценки состояния сердца человека. В целом, фракция выброса (ФВЛЖ) менее 30% считается серьезным отклонением от нормы и сигнализирует о сердечной недостаточности. Связь между фракцией выброса и креатинином сыворотки можно дополнительно изучить, нанеся на график данные пациентов.

На первый взгляд видно, что фракция выброса ‹20% тесно связана со смертью. Хотя между двумя переменными не существует четкой корреляции, график помогает нам визуализировать взаимодействие между возрастом, фракцией выброса и уровнями креатинина и их влияние на смерть, как и предсказывает наша модель.

Будущая роль машинного обучения в здравоохранении

Внедрение машинного обучения в различных отраслях уже упрощается благодаря автоматизированным платформам машинного обучения, таким как Amazon SageMaker, Google Cloud auto-ML и IBM Watson. Эти платформы доказали свою эффективность благодаря надежной обработке данных и автоматизированному созданию моделей машинного обучения.
Чтобы использовать всю мощь медицинских данных, клиницисты, которые также являются отличными специалистами по данным, используют модели машинного обучения для извлечения смысла из больших данных. По мере того как внедрение технологий в здравоохранении ускоряется, доступность обширных данных и автоматизированных платформ машинного обучения может позволить исследователям и врачам использовать машинное обучение в их повседневном принятии решений.