Использование Splunk для прогнозирования медицинских услуг
Splunk считается отличным инструментом для кибербезопасности, но он делает гораздо больше, включая внедрение машинного обучения. В этом случае мы возьмем набор данных о населении из штатов США и попытаемся предсказать DR рака (уровень смертности). Набор данных, который мы будем использовать, [здесь]:
Теперь мы будем использовать эксперимент Predict Numeric Field:
Далее мы создаем новый эксперимент:
Первоначально мы будем использовать линейную регрессию для определения числового значения DR рака:
Далее мы будем использовать все остальные поля в наборе данных, кроме RegionState и Population Density, для обучения:
Затем мы выбираем «Подогнать модель», и добавляется поле прогноза:
Теперь у нас есть DR Рака, предсказанное (DR Рака) и остаточная стоимость. Это остаточное значение показывает разницу между реальным CancerDR и прогнозируемым (Cancer DR). Splunk теперь создает диаграмму связи между фактическими и прогнозируемыми значениями:
Так насколько хороша модель? Что ж, мы можем измерить статистику R² и RMSE (среднеквадратическую ошибку):
Затем мы можем проанализировать коэффициенты, где коэффициенты безработицы, младенческого MR и инсульта являются положительными коэффициентами, а Homide DR и Motor Vech DR являются отрицательными коэффициентами:
Мы видим, что Население имеет очень небольшой эффект (-3x10^-7 — что почти равно нулю). Теперь попробуем RandomForestRegressor:
Теперь мы строим график и видим улучшения:
и улучшение значения R² и снижение RMSE:
Теперь мы видим важность функций:
и где MR младенцев, смертность от курения на 100 человек и DR болезней сердца являются наиболее значимыми характеристиками, а DR населения, безработицы и самоубийств являются наименее значимыми.
Теперь попробуем метод Лассо:
Результаты:
Результаты аналогичны предыдущему методу, но немного хуже:
Теперь мы видим следующие коэффициенты:
В этом случае увеличение DR Motor Vech вызывает снижение DR Рака, а увеличение DR Убийства положительно коррелирует с DR Рака.
Итак, лучшей моделью является регрессия случайного леса, поэтому вот ранжирование значимых факторов:
- Болезни сердца DR 0,4852065534763721
- Младенец MR 0,2033007820827993
- Смертность от курения на 100 тыс. населения 0,09399038988407564
- Население 0,06500664364202598
- Отравление наркотиками DR 0.04182069296705104
- Суицид DR 0.038094816780158594
- Средний доход 0,023653424104559357
- Выбросы CO2 0,01400126913457905
- Убийство DR 0.01177867216610513
- Мотор Веч ДР 0.008904899825803995
- Безработица 0,0075216464629028965
- DR инсульта 0,0067202094735669795
- Болезнь сердца DR0,38581593445936674
Мы видим, что DR болезней сердца и DR младенцев являются главными характеристиками, а уровень DR безработицы и инсульта — самым низким.