Традиционный метод вынесения суждений об анализе риска у людей, страдающих ишемической болезнью сердца, подвергающихся чрескожному коронарному вмешательству (ЧКВ), делается на основе ограниченного количества клинических факторов и изображений медицинского заключения. Принятие решений в современной системе здравоохранения мультиплексировано и скорее основано на доступных данных, структурированном понимании и правильной интерпретации в контексте конкретного пациента. Машинное обучение вносит большой вклад в характеристику сердечно-сосудистого риска, прогнозирование результатов, в идентификацию биомаркеров на доступных данных огромной популяции. Зная тот факт, что огромному количеству кардиологических пациентов требуется ЧКВ, нет четкого результата, основанного на применении машинного обучения к этой конкретной группе пациентов, чтобы воспользоваться преимуществом машинного обучения при вынесении суждения об анализе точных прогностических конечных точек. в больших масштабах.

В последние годы чрескожное коронарное вмешательство (ЧКВ) стало передовой инновацией в лечении ишемической болезни сердца. Стратификация риска для постановки диагноза имеет решающее значение для пациентов и их персонализированного ведения, которым проводится ЧКВ (чрескожное коронарное вмешательство). Система оценки для долгосрочной диагностики пациентов с ЧКВ может нуждаться в объединении мощных всесторонних факторов. Традиционная прогностическая оценка риска имеет ограниченные возможности для разработки стратификации риска. Мы разработали инструмент стратификации риска с помощью машинного обучения, который способен оценивать и стратифицировать риск в различных случаях у пациентов до ЧКВ. Благодаря всестороннему исследованию наиболее эффективной моделью машинного обучения была модель случайного леса, которая использовалась для прогнозирования и стратификации пациентов по разным медицинским показателям, чтобы создать четкое описание решений модели и предоставить точный результат индивидуального прогнозирования риска и предоставить врачам интерпретация на основе ключевых особенностей предоставленных медицинских карт.

С помощью всех исследовательских работ, на которые мы ссылались, мы узнали, что алгоритмы дерева решений и случайного леса превосходят их, обеспечивая максимальную точность. Дерево решений является наиболее влиятельным и упрощенным алгоритмом классификации и прогнозирования. Это древовидная структура, похожая на схему, где каждый внутренний шаг указывает на проверку функции, каждая ветвь означает результат проверки, а каждый конечный узел содержит решение.

Чтобы изучить классификацию, данные должны знать лучшую функцию на каждом этапе при построении дерева решений, для этого мы должны найти, какая функция дает наиболее ценную информацию, используя концепцию получения информации. Прирост информации помогает рассчитать уменьшение энтропии и определить, насколько хорошо атрибут классифицирует целевые классы. Атрибут, который имеет максимальное значение прироста информации, считается лучшим признаком. Чтобы рассчитать прирост информации, мы должны знать энтропию каждой функции. Энтропия — это, по сути, мера несходства целевой переменной в наборе данных. В случае бинарной классификации

если энтропия равна 0, то все значения в целевой переменной одинаковы (либо все положительные, либо все отрицательные)

если энтропия равна 1, то целевая переменная имеет равное количество положительных и отрицательных значений.

Энтропия рассчитывается как:

Энтропия (S) = сумма {от i=1 до n {(P[i] * base2log(P[i]))}

S -> энтропия

n -> общее количество классов в целевом столбце, в нашем случае n = 2, т.е. 1 (рискованный) и 0 (нерискованный)

pᵢ -› вероятность класса «i» или отношение «количества строк с классом i в целевом столбце» к «общему количеству строк» ​​в наборе данных.

Прирост информации для столбца функций A рассчитывается как:

IG(S,A) = Entropy(S) — сумма { ( |S[v]| / |S| ) * Entropy(S[v]) }

Sᵥ -> набор строк в S, для которых столбец признаков A имеет значение v

|Sᵥ| -› количество строк в Sᵥ

|С| -› количество строк в S

Еще одним фактором, который следует учитывать при изучении модели, является чистота при создании дерева решений. Это можно измерить с помощью индекса Джини. Признак с низким индексом Джини должен быть предпочтительнее, чем признак с высоким значением индекса Джини. Этот индекс полезен при создании бинарных разбиений.

Индекс Джини можно рассчитать как:

Индекс Джини = 1 — (сумма {(sqr(P[j])) } )

У нас есть огромный набор данных и мультиклассификация каждой функции. Мы получаем длинное и не очень легкое для чтения дерево решений, так как результирующее решение имеет много слоев. Множественная классификация каждой функции сделала ее вычислительно сложной, и у нее также могут быть проблемы с переоснащением.

Случайный лес — это гибкий, простой для понимания алгоритм машинного обучения, который в большинстве случаев дает хорошие результаты. Это один из наиболее часто используемых алгоритмов из-за его гибкости и разнообразия, т. е. он используется как для задач классификации, так и для задач регрессии.

Он работает на ансамблевом обучении. Ансамблевое обучение — это процесс, который объединяет несколько классификаторов или моделей для решения сложных проблем и прогнозирования, а не для отдельной модели.

Алгоритм случайного леса состоит из множества деревьев решений. «Лес», созданный алгоритмом случайного леса, обучается с использованием методов группирования или начальной загрузки. Бэггинг — это метод, который повышает производительность алгоритмов машинного обучения. Это также называется агрегацией Bootstrap, которая выбирает случайный набор данных. Каждая модель, созданная из выборок из заданных Данных с заменой, называется выборкой строк. Выборка строк с подстановкой называется начальной загрузкой. Далее обучение индивидуальной модели происходит самостоятельно, что дает свои результаты. Конечный результат основан на максимальном голосовании после объединения результатов всех моделей. Этот процесс объединения всех результатов и расчета выходных данных на основе максимального количества голосов называется агрегированием.

Алгоритм случайного леса устанавливает результат на основе предсказаний деревьев решений. Он вычисляет результат путем усреднения выходных данных из нескольких деревьев решений. Точность результатов увеличивается за счет увеличения количества деревьев. Случайный лес преодолевает недостатки алгоритма дерева решений. Это уменьшает переоснащение наборов данных и повышает точность. Он делает прогнозы без необходимости множества конфигураций в пакетах.

Внедрение и результаты

Древо решений

Случайный лес

Заключение

Алгоритм случайного леса объединяет выходные данные нескольких (случайно созданных) деревьев решений для создания окончательного вывода.

Случайный лес использует мощь нескольких деревьев решений. Он не зависит от важности функции, заданной одним деревом решений. Вот почему он работал лучше.

Я надеюсь, что этот блог поможет тем, кто ищет решения той же проблемы. Большое спасибо, что прочитали!!

Здесь я прикрепляю полный исходный код, загруженный на GitHub!

Свяжитесь со мной в LinkedIn.