Использование Splunk для прогнозирования медицинских услуг

Splunk считается отличным инструментом для кибербезопасности, но он делает гораздо больше, включая внедрение машинного обучения. В этом случае мы возьмем набор данных о населении из штатов США и попытаемся предсказать DR рака (уровень смертности). Набор данных, который мы будем использовать, [здесь]:

Теперь мы будем использовать эксперимент Predict Numeric Field:

Далее мы создаем новый эксперимент:

Первоначально мы будем использовать линейную регрессию для определения числового значения DR рака:

Далее мы будем использовать все остальные поля в наборе данных, кроме RegionState и Population Density, для обучения:

Затем мы выбираем «Подогнать модель», и добавляется поле прогноза:

Теперь у нас есть DR Рака, предсказанное (DR Рака) и остаточная стоимость. Это остаточное значение показывает разницу между реальным CancerDR и прогнозируемым (Cancer DR). Splunk теперь создает диаграмму связи между фактическими и прогнозируемыми значениями:

Так насколько хороша модель? Что ж, мы можем измерить статистику R² и RMSE (среднеквадратическую ошибку):

Затем мы можем проанализировать коэффициенты, где коэффициенты безработицы, младенческого MR и инсульта являются положительными коэффициентами, а Homide DR и Motor Vech DR являются отрицательными коэффициентами:

Мы видим, что Население имеет очень небольшой эффект (-3x10^-7 — что почти равно нулю). Теперь попробуем RandomForestRegressor:

Теперь мы строим график и видим улучшения:

и улучшение значения R² и снижение RMSE:

Теперь мы видим важность функций:

и где MR младенцев, смертность от курения на 100 человек и DR болезней сердца являются наиболее значимыми характеристиками, а DR населения, безработицы и самоубийств являются наименее значимыми.

Теперь попробуем метод Лассо:

Результаты:

Результаты аналогичны предыдущему методу, но немного хуже:

Теперь мы видим следующие коэффициенты:

В этом случае увеличение DR Motor Vech вызывает снижение DR Рака, а увеличение DR Убийства положительно коррелирует с DR Рака.

Итак, лучшей моделью является регрессия случайного леса, поэтому вот ранжирование значимых факторов:

Болезни сердца DR 0,4852065534763721
Младенец MR 0,2033007820827993
Смертность от курения на 100 тыс. населения 0,09399038988407564
Население 0,06500664364202598
Отравление наркотиками DR 0.04182069296705104
Суицид DR 0.038094816780158594
Средний доход 0,023653424104559357
Выбросы CO2 0,01400126913457905
Убийство DR 0.01177867216610513
Мотор Веч ДР 0.008904899825803995
Безработица 0,0075216464629028965
DR инсульта 0,0067202094735669795
Болезнь сердца DR0,38581593445936674

Мы видим, что DR болезней сердца и DR младенцев являются главными характеристиками, а уровень DR безработицы и инсульта — самым низким.

Использование Splunk для прогнозирования медицинских услуг

Использование Splunk для прогнозирования медицинских услуг

Вопросы по теме