Сердечно-сосудистые заболевания являются основной причиной смерти. В США около 659 000[1] и в Канаде 77 000 человек ежегодно умирают от сердечно-сосудистых заболеваний. Расходы на сердечно-сосудистые заболевания обходятся Соединенным Штатам примерно в 363 миллиарда долларов в год[2] и Канаде в 22 миллиарда долларов в год.

1. История

Американского колледжа кардиологов и Американской кардиологической ассоциации (ACC/AHA) расчет 10-летнего сердечно-сосудистого риска подвергся сомнению из-за своей точности в нескольких анализах (Lancet 2013; 382:1762 и JAMA Intern Med 2014; 174:1964). Исследователи использовали данные исследования MESA (Многоэтнические исследования атеросклероза), которые доказали, что основанные на Фрамингеме системы оценки риска и уравнение риска с калькулятором ACC/AHA существенно переоценивают фактический 5-летний риск у взрослых без диабета в целом и по социально-демографическим показателям. подгруппы.[3]. Поскольку калькулятор используется для отбора пациентов для терапии статинами, последствия неточности существенны.

Таким образом, потенциал использования машинного обучения для улучшения прогнозирования сердечно-сосудистых заболеваний и принятия более эффективных медицинских решений значителен.

2 Данные и методы

2.1 Источник данных

Данные, используемые в этом случае, представляют собой набор данных Cleveland Heart Disease dataset из UCI Repository.

2.2 Методы:

Мы применили различные методы машинного обучения, чтобы выявить связь между определенными атрибутами и сердечными заболеваниями. Алгоритмы машинного обучения, которые мы использовали, включают:

  • Наивные байесы
  • КНН
  • Древо решений
  • SVM
  • XGB
  • ГолосованиеКлассификатор
  • Логистическая регрессия
  • Случайный лес

Процесс нашего исследования представлен в виде следующей блок-схемы:

3. Важность результата и функции:

3.1. Точность моделей машинного обучения

Несколько моделей показывают приличную точность, как показано ниже. С настроенными гиперпараметрами логистическая регрессия и случайный лес имеют точность 88% и 84% в тестовом наборе данных.

3.2 Важность функции:

Важность функции относится к методам, которые присваивают оценку входным функциям в зависимости от того, насколько они полезны при прогнозировании целевой переменной.

Согласно RF, из 30 переменных 5 наиболее важными характеристиками являются:

  • Cp0: Типичная стенокардия: боль в груди, связанная с уменьшением кровоснабжения сердца
  • Старый пик: депрессия ST, вызванная физическими упражнениями, по сравнению с состоянием покоя — смотрит на стресс сердца во время физических упражнений, нездоровое сердце будет подвергаться большему стрессу.
  • Exang1: стенокардия, вызванная физической нагрузкой (правда)
  • талах — максимальная достигнутая частота сердечных сокращений
  • exang0 — стенокардия, вызванная физической нагрузкой (False)

К наименее полезным переменным относятся:

  • Thal_0: результат воздействия таллия
  • Ca_4: ca пустое значение
  • Fbs_0:(сахар в крови натощак > 120 мг/дл) (ложь) >126' мг/дл сигнализирует о диабете
  • Fbs_1: (уровень сахара в крови натощак > 120 мг/дл) (правда) > 126' мг/дл сигнализирует о диабете
  • Restecg_2: аномалия ST-T (инверсия T и/или элевация или депрессия ST > 0,05 мВ).

4. Заключение

Kardiolabs разрабатывает решения на основе искусственного интеллекта для автоматического составления отчетов о КТ-коронарографии для пациентов, страдающих ишемической болезнью сердца. Для этого исследования у нас в команде есть опытные кардиологи, которые консультируют по методам машинного обучения. На следующем этапе будут введены дополнительные функции и записи для дальнейшего улучшения прогноза.

Приложение:

  1. возраст: возраст в годах
  2. пол: пол (1 = мужчина; 0 = женщина)
  3. cp: тип боли в груди
    — Значение 0: типичная стенокардия
    — Значение 1: атипичная стенокардия
    — Значение 2: неангинозная боль
    — Значение 3: бессимптомная
  4. trestbps: артериальное давление в покое (в мм рт. ст. при поступлении в больницу)
  5. хол: холестерин в сыворотке в мг/дл
  6. fbs: (уровень сахара в крови натощак > 120 мг/дл) (1 = верно; 0 = неверно)
  7. retecg: результаты электрокардиографии в покое
    — Значение 0: норма
    — Значение 1: наличие аномалии ST-T (инверсия зубца T и/или элевация или депрессия сегмента ST > 0,05 мВ)
    — Значение 2: наличие вероятной или достоверной гипертрофии левого желудочка по критериям Эстеса.
  8. Талах: достигнута максимальная частота сердечных сокращений
  9. exang: стенокардия, вызванная физической нагрузкой (1 = да; 0 = нет)
  10. oldpeak = депрессия ST, вызванная физической нагрузкой, по сравнению с состоянием покоя
  11. наклон: наклон пикового сегмента ST в упражнении
    — Значение 0: восходящий
    — Значение 1: плоский
    — Значение 2: наклонный
  12. ca: количество крупных сосудов (0–3), окрашенных при рентгеноскопии, 4, NAN
  13. th: 0 = нормальный; 1 = фиксированный дефект; 2 = обратимый дефект
    и этикетка
  14. состояние: 0 = нет болезни, 1 = болезнь

Блог Миа

Ссылка:

[1]: Центры по контролю и профилактике заболеваний. Основная причина смерти, 1999–2018 гг. Интернет-база данных CDC WONDER. Атланта, Джорджия: Центры по контролю и профилактике заболеваний; 2018. По состоянию на 12 марта 2020 г.

[2]: Virani SS, Alonso A, Aparicio HJ, Benjamin EJ, Bittencourt MS, Callaway CW, et al. Статистика сердечных заболеваний и инсультов — обновление 2021 года: отчет Американской кардиологической ассоциации. Тираж. 2021;143:e254–e743.

[3]: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5097466/