Использование методов ансамбля и методов усиления

Вы когда-нибудь слышали о машине, предсказывающей болезнь человека? Что ж, если у вас есть правильный набор данных, то можно построить интеллектуальную систему, которая может предсказать болезнь, даже не требуя от человека прохождения процедур идентификации инвазивного заболевания.

В этом блоге я расскажу вам о модели машинного обучения, которая позволяет прогнозировать закупорку коронарной артерии у человека. Набор данных, который я использовал, доступен в репозитории машинного обучения UCI и предоставлен:

1. Hungarian Institute of Cardiology. Budapest: Andras Janosi,M.D.
2. University Hospital, Zurich, Switzerland: William Steinbrunn,M.D.
3. University Hospital, Basel, Switzerland: Matthias Pfisterer,M.D.
4. V.A. Medical Center, Long Beach and Cleveland Clinic Foundation: Robert Detrano, M.D., Ph.D.

Скачать набор данных

Мы будем использовать набор данных Cleveland, поэтому загрузите файл processing.cleveland.data по ссылке на репозиторий UCI ML. И краткая информация о функциях набора данных также представлена ​​в файле heart-болезнь.names.

Я также создал отдельный документ (Подробный справочник по функциям.docx, загруженный на GitHub), который вы можете обратиться, чтобы получить глубокое понимание функций набора данных.

Что такое ишемическая болезнь сердца?

Ишемическая болезнь сердца (ИБС) - это наиболее распространенный тип сердечного заболевания, который развивается, когда основные кровеносные сосуды, снабжающие ваше сердце кровью, кислородом и питательными веществами (коронарные артерии) получить повреждение или заболевание. Это также широко известно как ишемическая болезнь сердца или ишемическая болезнь сердца.

Что вызывает ишемическую болезнь сердца?

Холестеринсодержащие отложения (бляшки) в артериях и воспаление обычно являются причиной заболевания коронарной артерии.

Зубной налет состоит из отложений холестерина и других веществ в артерии. Накопление зубного налета вызывает со временем сужение внутренней части артерий, что может частично или блокировать кровоток.

Импортируйте набор данных Cleveland

Предварительная обработка данных

Это первый шаг, который мы выполняем перед созданием любой модели машинного обучения. На этом этапе мы выполняем различные действия, такие как обработка типов данных, заполнение отсутствующих значений, масштабирование функций, преобразование функций, обработка выбросов и другие, чтобы очистить набор данных и удалить нежелательный шум.

Шаг 1. Обработка класса в "num"

Обработка многомерного прогнозируемого атрибута, т. Е. «num», в котором записи со значениями ›1 выполняются с помощью CAD, а‹ 1 не являются CAD.

Проверка счетчиков перед выполнением любой операции

Определение количества записей с блокировкой ›50%

Разделение объекта "num" на два класса: 0 (блокировка ‹50%) и 1 (блокировка› 50%)

Визуализируйте записи САПР и не САПР

Обнаружены недостающие значения ("?") В наборе данных

Визуализируйте недостающие записи

Записи с NULL Color_vsl

Заполнение пропущенных значений в функции COLOR_VSL

Заполнение пропущенных значений в функции THAL

Визуализация пропущенных значений снова

На этот раз мы получили чистую тепловую карту без пропущенных значений ни в одной из функций.

Обработка типов данных

Отбросьте ненужный столбец

Поскольку мы создали обновленные столбцы для COLOR_VSL, THAL и NUM, отбросив их более ранние версии.

Исследовательский анализ данных

EDA - это подход, при котором визуальные методы в основном используются для анализа наборов данных и обобщения их основных характеристик. Лучший способ выполнить EDA для набора данных - это задать себе вопросы и попытаться найти на них ответы. Основная цель EDA - предоставить данные, чтобы они могли рассказать вам о выводах, выходящих за рамки формального моделирования или проверки гипотез.

Вопрос-1: У скольких людей в возрастной группе 29–48 лет закупорка превышает 50%?

Вопрос-2: У скольких людей в возрастной группе 48–56 лет закупорка превышает 50%?

Вопрос-3: У скольких людей в возрастной группе 56–77 лет закупорка превышает 50%?

Вопрос-4: Сколько МУЖЧИН и ЖЕНЩИН страдают сердечными заболеваниями?

Вопрос-5: Сколько пациентов страдали от различных БОЛЕЙ В ГРУДЕ?

Вопрос-6: Соответствует ли высокое кровяное давление в состоянии покоя ИБС?

Группа АД 1: [94–120)

BP Group2: [120–130)

BP Group3: [130–140)

BP Group4: 140 или более

Вопрос-7: Соответствует ли высокое кровяное давление высокому уровню холестерина в сыворотке крови, а также развитию ИБС?

Вопрос-8: Соответствует ли высокое кровяное давление высокому уровню холестерина в сыворотке крови и приводит ли к высокому уровню сахара в крови?

Вопрос-9: Соответствует ли высокое кровяное давление высокому уровню сахара в крови, также приводит ли к ИБС?

Вопрос-10: Соответствует ли отклонение волны ST от ИБС?

Вопрос-11: Связана ли ГИПЕРТРОФИЯ ЛЕВОГО ЖЕЛУДОЧКА с артериальным давлением и холестерином?

Вопрос-12: Приводит ли ГИПЕРТРОФИЯ ЛЕВОГО ЖЕЛУДОЧКА, связанная с высоким уровнем сахара в крови, к ИБС?

Вопрос-13: Соответствует ли МАКСИМАЛЬНАЯ ЧСС АД в состоянии покоя, также ведет ли к ИБС?

Вопрос-14: Соответствует ли стенокардия, вызванная физическими упражнениями, ИБС?

Вопрос-15: Как стенокардия, вызванная физической нагрузкой, и Oldpeak соответствуют результату ИБС?

Вопрос-16: Какой наклон ST в тесте с физической нагрузкой больше соответствует CAD?

Вопрос-17: Взаимосвязь наклона ST с Oldpeak и максимальной частотой сердечных сокращений?

Вопрос-18: Имеет ли талассемия какое-либо отношение к возрасту или максимальной ЧСС / АД / холестерину?

Обработка категориальных переменных

Графики распределения данных и обнаружения выбросов

Масштабирование и преобразование функций

Визуализация выбросов в количественных (RAW, SCALED и TRANSFORMED) функциях

График соотношения признаков

Выбор и оценка модели

Импортируйте необходимые пакеты и выполните передискретизацию данных

Гиперпараметризация / настройка модели

Результаты после гиперпараметрии

Поздравляем, мы подошли к концу этого блога. Подводя итог, мы работали с набором данных о сердечных заболеваниях, чтобы определить лучший алгоритм классификации для классификации сердечного заболевания человека. Кроме того, я использовал различные модели машинного обучения, чтобы предсказать результат с максимальной точностью.

Если вы хотите загрузить блокнот Jupyter этого блога, пожалуйста, зайдите в репозиторий GitHub ниже:

https://github.com/Rajesh-ML-Engg/Coronary_Artery_Disease

Спасибо и удачи !!!!