Использование Splunk для прогнозирования медицинских услуг

Splunk считается отличным инструментом для кибербезопасности, но он делает гораздо больше, включая внедрение машинного обучения. В этом случае мы возьмем набор данных о населении из штатов США и попытаемся предсказать DR рака (уровень смертности). Набор данных, который мы будем использовать, [здесь]:

Теперь мы будем использовать эксперимент Predict Numeric Field:

Далее мы создаем новый эксперимент:

Первоначально мы будем использовать линейную регрессию для определения числового значения DR рака:

Далее мы будем использовать все остальные поля в наборе данных, кроме RegionState и Population Density, для обучения:

Затем мы выбираем «Подогнать модель», и добавляется поле прогноза:

Теперь у нас есть DR Рака, предсказанное (DR Рака) и остаточная стоимость. Это остаточное значение показывает разницу между реальным CancerDR и прогнозируемым (Cancer DR). Splunk теперь создает диаграмму связи между фактическими и прогнозируемыми значениями:

Так насколько хороша модель? Что ж, мы можем измерить статистику R² и RMSE (среднеквадратическую ошибку):

Затем мы можем проанализировать коэффициенты, где коэффициенты безработицы, младенческого MR и инсульта являются положительными коэффициентами, а Homide DR и Motor Vech DR являются отрицательными коэффициентами:

Мы видим, что Население имеет очень небольшой эффект (-3x10^-7 — что почти равно нулю). Теперь попробуем RandomForestRegressor:

Теперь мы строим график и видим улучшения:

и улучшение значения R² и снижение RMSE:

Теперь мы видим важность функций:

и где MR младенцев, смертность от курения на 100 человек и DR болезней сердца являются наиболее значимыми характеристиками, а DR населения, безработицы и самоубийств являются наименее значимыми.

Теперь попробуем метод Лассо:

Результаты:

Результаты аналогичны предыдущему методу, но немного хуже:

Теперь мы видим следующие коэффициенты:

В этом случае увеличение DR Motor Vech вызывает снижение DR Рака, а увеличение DR Убийства положительно коррелирует с DR Рака.

Итак, лучшей моделью является регрессия случайного леса, поэтому вот ранжирование значимых факторов:

  1. Болезни сердца DR 0,4852065534763721
  2. Младенец MR 0,2033007820827993
  3. Смертность от курения на 100 тыс. населения 0,09399038988407564
  4. Население 0,06500664364202598
  5. Отравление наркотиками DR 0.04182069296705104
  6. Суицид DR 0.038094816780158594
  7. Средний доход 0,023653424104559357
  8. Выбросы CO2 0,01400126913457905
  9. Убийство DR 0.01177867216610513
  10. Мотор Веч ДР 0.008904899825803995
  11. Безработица 0,0075216464629028965
  12. DR инсульта 0,0067202094735669795
  13. Болезнь сердца DR0,38581593445936674

Мы видим, что DR болезней сердца и DR младенцев являются главными характеристиками, а уровень DR безработицы и инсульта — самым низким.