Распознавание сердечных заболеваний с помощью машинного обучения: критический обзор

Аннотация:

Сердечно-сосудистые заболевания или болезни сердца (ССЗ) являются основной причиной смерти во всем мире за последние несколько лет, а также стали самой фатальной эпидемической болезнью не только в нашей стране (Индии), но и во всем мире. Поэтому для правильного лечения требуется стабильная, подробная и соответствующая схема своевременного анализа такой эпидемии. Эти алгоритмы и стратегии были внедрены в отдельные значения медицинских данных, чтобы обеспечить исправление огромных и запутанных данных. Различные исследователи по всему миру пробовали огромное количество подходов к машинному обучению, чтобы они могли помочь отрасли здравоохранения в анализе сердечных заболеваний посредством их исследований. В этом проекте мы использовали различные алгоритмы и методы, основанные на моделях, и рассчитали их производительность и точность. Такие модели, как K-ближайший сосед (KNN), метод опорных векторов (SVM), случайный лес (RF), дерево решений и нейронные сети, являются наиболее популярными среди исследователей.

Ключевые слова:

Сердечно-сосудистые заболевания; K-ближайший сосед (KNN); Поддерживаемый векторный автомат (SVM); случайный лес (РФ); Дерево решений, нейронные сети.

ОБЗОР ЛИТЕРАТУРЫ

Машинное обучение действительно является областью исследований, которая помогает машинам научиться работать без участия пользователя. Компьютеры, как следует из названия, такие же, как и люди: способность думать. Сегодня машинное обучение уже активно используется, возможно, не в одной области.

Сердечная недостаточность требует огромных объемов данных, поэтому нужны другие подходы к обработке данных. Машинное обучение стало одним из самых распространенных методов. Эта программа измеряет вероятность развития сердечной недостаточности. Эффекты в этом методе оцениваются по риску сердечной недостаточности. Используемые базы данных классифицируются по научным признакам.

Н. Khateeb and M. Usman (2016)— Было разработано и протестировано несколько отдельных методов определения сердечной недостаточности. Его оригинальная работа была привязана к различным подходам к интеллектуальному анализу данных, а также к различным параметрам и состоянию здоровья. Они также применили продуктивную классификацию K-NN, которая в основном работает потрясающе. Точность зависит от количества добавляемых параметров. Кроме того, количество параметров и источников данных слишком мало для проведения экспериментов, чтобы обеспечить высокую точность.

М. Фатима and M. Pasha (2017) — Компьютерная диагностика (CAD), по-видимому, является самой быстрорастущей сложной областью лечения. В последние годы были предприняты серьезные попытки расширить применение компьютерной диагностики, поскольку сбои в программах клинической диагностики могут серьезно запутать медицинские службы. Машинное обучение действительно является ключевым компонентом компьютерной диагностики.

Май Шоуман, Тим Тернер и Роб Стокер (2012 г.) —Многие люди использовали анализ данных, которые помогают медицинским работникам оценивать сердечные заболевания. K-Nearest-Neighbour (KNN) является одним из самых популярных решений для анализа данных, которые использовались в задачах идентификации. Однако он не получил широкого распространения для лечения пациентов с сердечной недостаточностью.

С. Pouriyeh et al., (2017) —Точность нескольких классификаций была проверена и сопоставлена с использованием стратегий машинного обучения для прогнозирования сердечных заболеваний. Были использованы специальные классификаторы, такие как дерево решений, K-ближайший сосед (K-NN) и машина опорных векторов (SVM). Результаты этих тестов показывают нам, как модель SVM превзошла все остальные версии благодаря использованию методологии повышения интеллектуального анализа данных.

Р. Дас, И. Туркоглу и А. Сенгур (2009 г.) — Выявление сердечных заболеваний является серьезной проблемой, и несколько экспертов изучали возможность создания интеллектуальных сетей поддержки принятия медицинских решений для повышения эффективности работы врачей. В основе теоретической программы лежит подход ансамбля нейронных сетей. Этот метод создает новые модели просто путем слияния последующих возможных результатов, а также значений из этих других моделей. Теперь вы можете создавать более эффективные системы.

Н. Амма (2012 г.) —Медицинский диагностический метод играет важную роль в общей науке, которая используется для диагностики, которая касается профессиональных специалистов. Был проведен научный метод диагностики для определения вероятности сердечной недостаточности. Программа построена таким образом, чтобы объединить относительные преимущества генетических алгоритмов и нейронных сетей. Множественные нейронные сети с прямой связью особенно подходят для сложных задач классификации.

1. Введение

Задача сделать машины умнее. Поскольку знания были наиболее важной предпосылкой интеллекта, из них возникла подобласть ИИ, называемая машинным обучением (ML). Машинное обучение входит в число быстро развивающихся областей ИИ и используется в нескольких аспектах существования, особенно в медицинской отрасли. В области медицины машинное обучение имеет огромное значение, потому что это аналитический метод обработки данных, а также отрасль здравоохранения богата данными. Благодаря переходу в Интернет за последние несколько лет были получены и обработаны многочисленные объемы информации. Мониторинг и некоторые другие инструменты для сбора данных доступны в медицинских учреждениях и регулярно используются, при этом получаются большие объемы данных. Людям очень сложно, а иногда и непрактично извлекать ценные знания из таких огромных объемов данных, поэтому сегодня машинное обучение обычно используется для интерпретации этих записей, а также для выявления проблем со здоровьем. Более простое описание того, что будут делать алгоритмы, позволит узнать об обнаруженных проблемах.

Сердечно-сосудистые заболевания были наиболее распространенной причиной смерти во всем мире. Заболевания, которые непосредственно подпадают под рассмотрение, включают врожденный порок сердца, аритмию, ишемическую болезнь сердца, дилатационную кардиомиопатию, инфаркт миокарда, сердечную недостаточность, гипертрофическую кардиомиопатию, митральную регургитацию и многие другие. Сердечно-сосудистые заболевания, которые также означают сердечно-сосудистые заболевания, включают в себя количество состояний, влияющих на сердце. В прошлом году Всемирная организация здравоохранения (ВОЗ) сообщила о более чем 12 миллионах смертей во всем мире, связанных с сердечной недостаточностью. Симптомы сердечной недостаточности у мужчин и женщин могут быть различными. Например, мужчины имеют больший риск болей в груди; женщины гораздо чаще сталкиваются с другими недугами и травмами грудной клетки, такими как астма, тошнота и усталость; Артериальное давление, уровень холестерина, дискомфорт в груди, рост, пол также являются триггерами таких заболеваний.

Сердечно-сосудистые заболевания являются одним из ведущих мировых источников увядания и смерти. План лечения сердечно-сосудистых заболеваний считается одним из самых влиятельных клинических испытаний в этой области. В этом секторе все еще содержится огромное количество знаний. Интеллектуальный анализ данных превращает обширный массив эмпирических медицинских записей в знания, которые могут помочь в построении обоснованных предположений и прогнозов. Мы пытаемся создать платформу, которая может связываться с человеком или третьей стороной, чтобы использовать их данные, чтобы определить, испытываете ли вы сердечный приступ.

В этом обзорном документе дается описание методов классификации в машинном обучении, используемых во всей области лечения сердечно-сосудистых заболеваний, и того, как они применялись. Этот документ разделен на разделы. Раздел 2 дает краткое представление об обзоре проектирования системы, архитектуры системы, проектирования системы с помощью диаграмм вариантов использования и последовательности. Раздел 3 состоит из обсуждения и описания используемых алгоритмов. Раздел 4 дает объяснение работы в нашей работе. Раздел 5 включает сравнение гистограммы между всеми алгоритмами, описанными в Разделе 4. Наконец, Заключение в Разделе 6.

2. Дизайн системы

2.1 Архитектура системы

Эта структура показывает, как механизм предсказания происходит в модели. Сначала рассматривается набор данных. Набор данных проверяется, чтобы увидеть, остается ли в нем нулевое значение. Если значение атрибута опущено, это может привести к проблемам (ошибки и неправильная точность). Их можно удалить с помощью предварительной обработки, когда пустота заполняется всем набором данных значения атрибута. Затем к нему применяется метод, который мы хотим попробовать. Мы используем необходимые методы и функции, чтобы модель оставалась адекватной. Затем, когда мы используем набор данных для обучения, этот процесс называется классификацией. Затем модель получает знания через тестовые данные. Используя это, мы оцениваем выход.

2.2 Диаграммы UML

2.2.1 Схема вариантов использования

Вариант использования — это метод, используемый для определения, описания и расположения параметров программы в исследовании программы. Он состоит из такого набора потенциальных серий опыта в таком конкретном контексте среди систем, а также пользователей, который связан с конкретной целью. Подход создает руководство, подробно описывающее все действия, необходимые человеку для выполнения задачи. Обычно они разрабатываются экспертами рынка, и их можно увидеть на многих этапах создания продукта, включая разработку спецификаций программ, подтверждение конфигурации, проверку приложений, а также создание модели для онлайн-поддержки, а также руководств для пользователей.

Одним из основных способов показать, как работает система, является использование диаграммы UML. Клиент взаимодействует с системой, он предоставляет запросы, требуемые системой, а затем отправляет вывод сгенерированной системы. Клиент здесь — пациент. Задаваемые вопросы касаются состояния здоровья пациента, что может быть полезно, если у пациента нет болезни сердца или она есть.

2.2.2 Диаграмма последовательности

Диаграммы последовательности — это графики взаимосвязей, которые описывают, как выполняются действия. Диаграммы последовательности обеспечивают основанную на времени и визуально отображают последовательность отношений, используя вертикальную ось диаграммы, которая показывает, когда сообщения получены и как часто.

Здесь система взаимодействует с пациентом. Он берет необходимые данные от пользователя/пациента, подает в систему необходимые запросы, а затем отправляет выходные данные сгенерированной системы. Вопросы о состоянии здоровья пациента, которые затем предсказывают наличие или отсутствие у пациента болезни сердца.

3. Фон

3.1 Машинное обучение

Машинное обучение (ML) — это область искусственного интеллекта, которая включает в себя создание моделей, которые могут учиться на собственном опыте. Алгоритмы машинного обучения используют подход, обнаруживая, а также создавая модели секретных корреляций в исходном наборе данных. Затем они будут отображать конкретные прогнозы относительно конкретных баз данных, которые являются совершенно новыми для всех алгоритмов. Под изучением это означает, что компьютер становится умнее; поэтому он может распознавать тенденции, которые очень сложны, даже если люди вряд ли найдут их самостоятельно. Алгоритмы и методы машинного обучения могут работать с широкими наборами данных и определять, а также прогнозировать.

3.2. Используемые алгоритмы машинного обучения

3.2.1 K-ближайший сосед

K-Neighbours — одна из основных реализаций, используемых в машинном обучении. Хорошо известным методом группировки в этом секторе является K-NN или K-Neighborhood. K-NN работает, потому что сохраняет все существующие экземпляры и создает новые экземпляры, зависящие от подобия. Этот метод определяет классификацию нового экземпляра с его ближайшими соседями в зависимости от наибольшего количества голосов.

3.2.2. Метод опорных векторов

Он способен проводить как обнаружение посторонних, так и извлечение. Эта система классификации функционирует, предполагая прямую линию из набора данных между двумя категориями. Все наборы данных, попадающие на одну сторону графика, классифицируются как первоклассные, а все точки, попадающие на другую сторону, идентифицируются как второстепенные. Принимая во внимание названные обучающие данные, алгоритм генерирует соответствующую гиперплоскость, которая классифицирует новую информацию.

3.2.3 Дерево решений

Как правило, дерево решений часто используется для отражения суждений, которые могут привести нас к потенциальному решению. Включает древовидную компоновку конечного узла, а также суждения о дочерних узлах. Хотя это широко используемая парадигма в среде интеллектуального анализа данных, потому что полезно извлекать технику для достижения конкретной цели.

3.2.4 Случайный лес

Случайный лес — это метод обучения с учителем. Его можно использовать как для группировки (классификации), так и для реконструкции (регрессии). Метод является наиболее надежным и простым в использовании. Он состоит из деревьев, чем больше в нем деревьев, тем прочнее этот лес. Случайные леса генерируют деревья решений на основе случайных выборок данных, получают прогноз по каждому дереву, а также выбирают наилучший подход путем голосования. Это также дает нам довольно сильный характеристический предиктор.

3.2.5 Нейронные сети

Нейронная сеть — это просто группа нейронов, организованных слоями. Где входные данные преобразуются в некоторый результат, который желает пользователь. Нейрон принимает входящие данные, после чего в них вводится нелинейный процесс, а вывод перемещается на другой слой. Нейрон передает работу следующему слою, содержащему все нейроны. Возврата к предыдущему слою нет. Веса следует использовать для значений, которые перемещаются между нейронами. Вот как это относится к учебе.

3.3 Набор данных о сердечных заболеваниях

Набор данных в нескольких научных статьях представляет собой данные о сердечных заболеваниях, собранные в Центре машинного обучения и интеллектуальных систем UCI (Калифорнийский университет, Ирвин, Калифорния)[1]. Сюда входят четыре репозитория больницы. — хранилище содержит тот же набор функций, а именно 14, но отдельные номера записей. Набор данных для Кливленда включает 303 случая. В таблице 1 показаны 14 атрибутов/характеристик, которые встречаются параллельно каждому определению атрибута по мере их появления в наборе данных.

4 метода классификации для разных алгоритмов

4.1 K-ближайший сосед

Н. Хатиб и М. Усман в [2], K-ближайший сосед (KNN) был введен для прогнозирования сердечных заболеваний с использованием данных Кливленда. В документе противопоставляются эффекты, добавляя только KNN и расширяя методологию голосования на KNN. Голосование — это процесс, посредством которого данные разделяются по подразделам, а также к каждому подразделу добавляется классификатор. Однако , М. Шуман, Т. Тернер и Р. Стокер[3] упомянули, что они добились лучших результатов точности с помощью K-NN, чем с помощью нейронных сетей. При сравнении предпочтительно нечетное число соседей. Был реализован набор нечетных чисел от 1 до 21 и проведено сравнение их точности. При K=7 точность была самой высокой и составляла 80,701%. Матрица путаницы [[21,9],[6,25]].

Чувствительность и специфичность, достигнутые с помощью смешанной матрицы, равны 70 и 80,64. Разработанная структура включает в себя удобную для пользователя систему, которая позволяет пациентам прогнозировать 13 клинических элементов путем заполнения. Анализ показывает результаты прогноза и точность, а также время, необходимое для описания результатов, независимо от того, положительное или отрицательное.

4.2. Машина опорных векторов

М. Фатима и М. Паша [4] использовали различные методы ядра для машины опорных векторов. Linear, Poly, RBF и Sigmoid — это различные типы используемых ядер. Точность каждого ядра сравнивалась. Точность составила 79,38, 75,43, 81,14 и 78,94 следующим образом. Наиболее высокая точность была достигнута за счет использования ядра «RBF». Матрица путаницы [[ 76 16], [ 27 109]].

Чувствительность и специфичность, достигнутые по отношению к ядру «RBF», составили 82,6 и 80,14 следующим образом. Разработанная структура включает в себя удобную для пользователя систему, которая позволяет пациентам прогнозировать 13 клинических элементов путем заполнения. Анализ показывает результаты прогноза и точность, а также время, необходимое для описания результатов, независимо от того, положительное или отрицательное.

4.3 Дерево решений

Sabarinathan, а также Sugumaran в [5] использовали алгоритм Decision Tree J48 для выбора признаков, а также для прогнозирования сердечных заболеваний. Используемый набор данных включает тринадцать признаков/характеристик здоровья, и для обучения было использовано 240 записей и 120 для тестирования. Точность, полученная при использовании всех функций, составила 78,688%. Матрица путаницы [[21,7],[6,27]].

Чувствительность и специфичность, достигнутые с помощью смешанной матрицы, равны 75 и 81,81. Разработанная система имеет удобный интерфейс, который позволяет пациентам прогнозировать результаты, заполняя все 13 клинических элементов. Результат указывает результат прогноза, включая точность, а также

время, необходимое для объяснения результата, будь то положительный или отрицательный.

4.4 Случайный лес

Патель и др. в [6] сравнили несколько алгоритмов дерева решений для оценки возникновения или отсутствия сердечных заболеваний с использованием платформы WEKA с набором данных UCI. Оценивались многочисленные алгоритмы: J48, дерево логистической модели и случайный лес. Алгоритм J48 превзошел остальные с точностью 56,76%. Однако при использовании Jupyter Notebook 6.0.3 и применении случайного леса с числом оценщиков, равным 100, оно превзошло дерево решений. Была достигнута точность 83,33. Матрица путаницы [[78 18], [ 25 107]].

Чувствительность 81,25 и специфичность 81,06 были достигнуты с помощью матрицы путаницы. Разработанная структура имеет удобный графический интерфейс, который помогает пациентам прогнозировать все 13 клинических элементов путем заполнения. Эффект показывает результаты прогноза и точность, а также время, необходимое для описания результатов, будь то хорошо или плохо.

4.5 Нейронные сети

Дас и др. [7] а также Н. Амма [8] предложили структуру, использующую модель искусственной нейронной сети Ensemble (ANN). Использовался сбор данных по сердечно-сосудистым заболеваниям Кливленда, как показано в таблице 1. Путем интеграции множества моделей, обученных одной и той же миссии, ансамблевая модель получила улучшенное обобщение. Jupyter Notebook 6.0.3 был инструментом, который использовался для проведения анализа, и результаты показали, что модель оценивала сердечный приступ с точностью 83,38%. Модель ИНС в этой статье использовала тринадцать нейронов для входного слоя, шестьдесят четыре для каждого из двух скрытых слоев и два для выходного слоя. Набор данных, использованный в документе, представляет собой набор данных для Кливленда в таблице 1. Построенная структура имеет удобный для клиента дизайн, который позволяет пользователям делать прогнозы, заполняя все Тринадцать клинических признаков. Производительность показывает результат прогноза, включая точность и количество времени, которое требуется для демонстрации положительного или отрицательного эффекта.

5 результатов методов классификации для прогнозирования сердечно-сосудистых заболеваний

Именно здесь мы анализируем алгоритмы, чтобы определить правильные результаты для использования. Чем выше значения чувствительности, тем больше вероятность того, что алгоритм будет соответствовать заданному набору данных. Эта часть включает табличный обзор вышеупомянутых стратегий классификации.

Мы также сделали вывод из вышеупомянутой точности, что алгоритм случайного леса имеет большую точность и, следовательно, его достаточно для прогнозирования диагностической информации, которую мы получили в отношении сердечно-сосудистых заболеваний. Мы построили гистограмму точности.

Мы использовали K-NN и преобразовали его в файл .pkl. Использовал этот файл .pkl для развертывания модели на локальном хосте. Модель спрашивает пользователя о его/ее атрибутах, которые есть в наборе данных, и предсказывает, есть ли у человека заболевание сердца, возвращая 1, 0.

Мы ввели эти значения для предсказания.

63,1,3,100,120,1,0,123,0,1,0,0,0

6 Заключение и планы на будущее

Качество теоретических моделей зависит от используемого метода, набора используемых данных, количества характеристик и информации в выборке, методов обучения и субъекта, вносящего вклад в модель. Мы считаем, что данные с адекватными измерениями, а также достоверные эксперименты могут быть использованы для создания модели идеального прогноза сердечно-сосудистых заболеваний. Это очень важный аспект планирования набора данных, который будет использоваться системой обучения алгоритмов, и для получения достойной производительности детали базы данных будут соответствующим образом улучшены. Соответствующий алгоритм также можно использовать при создании прогностической модели. Кроме того, мы можем попробовать другие модели алгоритмов. Мы могли бы увидеть некоторые алгоритмы оптимизации в будущем, поскольку это развивающаяся эпоха. Мы видим, что искусственная нейронная сеть (ANN) и дерево решений (DT) хорошо показали себя в прогнозировании сердечно-сосудистых заболеваний. Неизбежно, что применение машинного обучения для выявления сердечно-сосудистых заболеваний является важным сектором, поскольку оно поможет как практикующим врачам больниц, так и отдельным лицам. Это действительно растущая отрасль, но не вся она публикуется, несмотря на большую доступность (огромные данные) информации о пациентах в лабораториях или больницах. Поскольку качество данных является решающим фактором надежности прогнозов, следует поощрять раскрытие большего количества больниц данных высокого качества (при сохранении конфиденциальности пациентов), чтобы ученые могли предоставить надежный источник для их поддержки, уточнения своих моделей и получения качественных результатов. результаты.

7 ссылок

[1] Набор данных о сердечных заболеваниях в Kaggle.

https://www.kaggle.com/ronitf/heart-disease-uci

[2] Н. Хатиб и М. Усман, «Эффективное сердце

система прогнозирования заболеваний с использованием метода классификации k-ближайших соседей, в материалах Международной конференции по большим данным и Интернету вещей (BDIOT), Нью-Йорк, США: ACM, 2017, стр. 21–26.»

[3] М. Шуман, Т. Тернер и Р. Стокер, "Применение k -ближайшего соседа в диагностике пациентов с сердечными заболеваниями",

Международный журнал информации и образования

Технология, вып. 2, нет. 3, стр. 220, 2012.»

[4]М. Фатима и М. Паша, «Обзор алгоритмов машинного обучения для диагностики заболеваний, Journal of Intelligent Learning Systems and Applications, vol. 9, нет. 01, стр. 1–16, 2017.

[5] В. Сабаринатан и В. Сугумаран, «Диагностика сердечно-сосудистых заболеваний с использованием дерева решений», Международный журнал исследований в области компьютерных приложений и информационных технологий, том. 2, нет. 6, стр. 74–79, 2014.

[6] J. Patel et al., «Прогнозирование сердечно-сосудистых заболеваний с использованием машинного обучения и техники интеллектуального анализа данных», Heart Disease, vol. 7, нет. 1, стр. 129–137, 2015.

[7] Р. Дас, И. Туркоглу и А. Сенгур, «Эффективно

диагностика болезней сердца с помощью нейронных сетей

ансамбли Экспертные системы с приложениями, том. 36,»

no.4, pp. 7675–7680, 2009.

[8] Н. Амма, «Система прогнозирования сердечно-сосудистых заболеваний

с использованием генетического алгоритма и нейронной сети, в»

Международная конференция по информатике,

Связь и приложения. Диндигул, Тамилнад, Индия: IEEE, февраль 2012 г., стр. 1–5.

[9] Фляга узнала от — Криш Наик

Распознавание сердечных заболеваний с помощью машинного обучения: критический обзор

Вопросы по теме