Сердечно-сосудистые заболевания являются основной причиной смерти. В США около 659 000[1] и в Канаде 77 000 человек ежегодно умирают от сердечно-сосудистых заболеваний. Расходы на сердечно-сосудистые заболевания обходятся Соединенным Штатам примерно в 363 миллиарда долларов в год[2] и Канаде в 22 миллиарда долларов в год.
1. История
Американского колледжа кардиологов и Американской кардиологической ассоциации (ACC/AHA) расчет 10-летнего сердечно-сосудистого риска подвергся сомнению из-за своей точности в нескольких анализах (Lancet 2013; 382:1762 и JAMA Intern Med 2014; 174:1964). Исследователи использовали данные исследования MESA (Многоэтнические исследования атеросклероза), которые доказали, что основанные на Фрамингеме системы оценки риска и уравнение риска с калькулятором ACC/AHA существенно переоценивают фактический 5-летний риск у взрослых без диабета в целом и по социально-демографическим показателям. подгруппы.[3]. Поскольку калькулятор используется для отбора пациентов для терапии статинами, последствия неточности существенны.
Таким образом, потенциал использования машинного обучения для улучшения прогнозирования сердечно-сосудистых заболеваний и принятия более эффективных медицинских решений значителен.
2 Данные и методы
2.1 Источник данных
Данные, используемые в этом случае, представляют собой набор данных Cleveland Heart Disease dataset из UCI Repository.
2.2 Методы:
Мы применили различные методы машинного обучения, чтобы выявить связь между определенными атрибутами и сердечными заболеваниями. Алгоритмы машинного обучения, которые мы использовали, включают:
- Наивные байесы
- КНН
- Древо решений
- SVM
- XGB
- ГолосованиеКлассификатор
- Логистическая регрессия
- Случайный лес
Процесс нашего исследования представлен в виде следующей блок-схемы:
3. Важность результата и функции:
3.1. Точность моделей машинного обучения
Несколько моделей показывают приличную точность, как показано ниже. С настроенными гиперпараметрами логистическая регрессия и случайный лес имеют точность 88% и 84% в тестовом наборе данных.
3.2 Важность функции:
Важность функции относится к методам, которые присваивают оценку входным функциям в зависимости от того, насколько они полезны при прогнозировании целевой переменной.
Согласно RF, из 30 переменных 5 наиболее важными характеристиками являются:
- Cp0: Типичная стенокардия: боль в груди, связанная с уменьшением кровоснабжения сердца
- Старый пик: депрессия ST, вызванная физическими упражнениями, по сравнению с состоянием покоя — смотрит на стресс сердца во время физических упражнений, нездоровое сердце будет подвергаться большему стрессу.
- Exang1: стенокардия, вызванная физической нагрузкой (правда)
- талах — максимальная достигнутая частота сердечных сокращений
- exang0 — стенокардия, вызванная физической нагрузкой (False)
К наименее полезным переменным относятся:
- Thal_0: результат воздействия таллия
- Ca_4: ca пустое значение
- Fbs_0:(сахар в крови натощак > 120 мг/дл) (ложь) >126' мг/дл сигнализирует о диабете
- Fbs_1: (уровень сахара в крови натощак > 120 мг/дл) (правда) > 126' мг/дл сигнализирует о диабете
- Restecg_2: аномалия ST-T (инверсия T и/или элевация или депрессия ST > 0,05 мВ).
4. Заключение
Kardiolabs разрабатывает решения на основе искусственного интеллекта для автоматического составления отчетов о КТ-коронарографии для пациентов, страдающих ишемической болезнью сердца. Для этого исследования у нас в команде есть опытные кардиологи, которые консультируют по методам машинного обучения. На следующем этапе будут введены дополнительные функции и записи для дальнейшего улучшения прогноза.
Приложение:
- возраст: возраст в годах
- пол: пол (1 = мужчина; 0 = женщина)
- cp: тип боли в груди
— Значение 0: типичная стенокардия
— Значение 1: атипичная стенокардия
— Значение 2: неангинозная боль
— Значение 3: бессимптомная - trestbps: артериальное давление в покое (в мм рт. ст. при поступлении в больницу)
- хол: холестерин в сыворотке в мг/дл
- fbs: (уровень сахара в крови натощак > 120 мг/дл) (1 = верно; 0 = неверно)
- retecg: результаты электрокардиографии в покое
— Значение 0: норма
— Значение 1: наличие аномалии ST-T (инверсия зубца T и/или элевация или депрессия сегмента ST > 0,05 мВ)
— Значение 2: наличие вероятной или достоверной гипертрофии левого желудочка по критериям Эстеса. - Талах: достигнута максимальная частота сердечных сокращений
- exang: стенокардия, вызванная физической нагрузкой (1 = да; 0 = нет)
- oldpeak = депрессия ST, вызванная физической нагрузкой, по сравнению с состоянием покоя
- наклон: наклон пикового сегмента ST в упражнении
— Значение 0: восходящий
— Значение 1: плоский
— Значение 2: наклонный - ca: количество крупных сосудов (0–3), окрашенных при рентгеноскопии, 4, NAN
- th: 0 = нормальный; 1 = фиксированный дефект; 2 = обратимый дефект
и этикетка - состояние: 0 = нет болезни, 1 = болезнь
Блог Миа
Ссылка:
[1]: Центры по контролю и профилактике заболеваний. Основная причина смерти, 1999–2018 гг. Интернет-база данных CDC WONDER. Атланта, Джорджия: Центры по контролю и профилактике заболеваний; 2018. По состоянию на 12 марта 2020 г.
[2]: Virani SS, Alonso A, Aparicio HJ, Benjamin EJ, Bittencourt MS, Callaway CW, et al. Статистика сердечных заболеваний и инсультов — обновление 2021 года: отчет Американской кардиологической ассоциации. Тираж. 2021;143:e254–e743.