Авторы: Shuang Men и Yunshen Chen (Шуанг и Yunshen — специалисты по данным в отделе аналитики и изменения поведения в CVS Health)

Введение

Удержание участников играет ключевую роль в процессах маркетинга, продаж и финансового планирования и является одним из основных финансовых показателей для компаний с бизнес-моделью на основе подписки. С точки зрения компании необходимо поддерживать здоровый уровень удержания членов, потому что привлечение новых членов или клиентов часто обходится дороже, чем удержание существующих. Это особенно верно для страховой отрасли, где затраты на привлечение клиентов выше, чем во многих других отраслях, и поддержание удовлетворенности и лояльности клиентов является надежной стратегией удержания¹. Информация, полученная в результате прогнозирования отсева, помогает компаниям уделять больше внимания участникам, которые подвержены высокому риску ухода². Учитывая сложность данных о медицинском страховании, глубокое обучение может быть подходящим для прогнозирования отсева из-за его преимуществ в самостоятельном выполнении разработки функций³. В этой работе мы исследовали методологии глубокого обучения для варианта использования прогноза отсева. Мы построили обычную нейронную сеть (NN), долговременную кратковременную память (LSTM) и гибридную модель LSTM/NN для прогнозирования отсева членов коммерческого медицинского страхования Aetna. Чтобы получить интуитивное представление о выборе модели и процессе построения модели в этом случае использования, производительность модели и время обучения моделей глубокого обучения сравнивались с таковыми у модели Gradient Boosting Machine (GBM).

Данные, архитектура и модели

Описание данных

В этой работе классические модели машинного обучения и глубокого обучения были построены на уровне участников со 100 тысячами (К) записей (125 МБ в формате CSV) и 1 миллионом (ММ) записей (900 МБ в формате CSV). Всего из внутренних баз данных Aetna выбрано 254 функции. Из этих функций 98 являются статическими функциями, охватывающими демографические данные, план страхования, информацию о спонсорах плана и т. д. Эти статические функции в целом не меняются в течение нескольких месяцев. Остальные 156 функций являются функциями во временных шагах. Эти функции во времени извлекаются за 13 месяцев подряд и содержат 12 типов ежемесячных записей, таких как количество звонков, полученных участником. Наборы для обучения и проверки были разделены в соотношении 70/30 в процессе построения модели.

Сравнение архитектур

В процессе обучения модели использовались две вычислительные платформы, спецификации оборудования которых перечислены ниже:

1. ЦП:

· Архитектура: x86_64

· ЦП: 72

· Количество потоков на ядро: 2

· Количество ядер на сокет: 18

· Розетка(и): 2

· NUMA-узлы: 2

· ЦП МГц: 3399,884

2. Графический процессор:

· Тип графического процессора: Tesla V100

· Продукт: GV100GL [Tesla V100 SXM2 32GB]

· Поставщик: Корпорация NVIDIA

· Версия: а1

· Ширина: 64 бита

· Часы: 33 МГц

Эти измерения могут отличаться из-за того, что они выполняются в общей вычислительной среде; следовательно, эти результаты следует интерпретировать как направленные, а не точные.

Модели глубокого обучения

За последние 10 лет глубокое обучение как подмножество машинного обучения становится все более популярным для задач типа ИИ. Одна из причин этого заключается в том, что глубокое обучение неоднократно демонстрировало свою превосходную производительность в самых разных задачах, включая речь, естественный язык, зрение и игры. В этом проекте мы исследовали три различные структуры моделей глубокого обучения, которые потенциально подходят для нашего варианта использования, и расширили наше понимание методологии глубокого обучения.

Нейронные сети — это вычислительные системы, вдохновленные биологическими нейронными сетями, предназначенные для выполнения различных задач с использованием большого количества данных⁴. Нейронные сети состоят из слоев узлов, содержащих входной слой, один или несколько скрытых слоев и выходной слой⁵, как показано на рисунке 1 ниже. Используемая здесь традиционная модель нейронной сети принимает все функции в равной степени в качестве входных данных, не различая различий во временной последовательности между функциями.

LSTM — это усовершенствованная архитектура рекуррентной нейронной сети (RNN), которая была разработана для более точного моделирования хронологических последовательностей и их долгосрочных зависимостей, чем обычные RNN или NN⁶. Модель принимает данные во временных шагах в качестве входных данных. Данные временного шага обрабатываются шаг за шагом с зависимостями, как показано на графике (рис. 2) ниже, чтобы позволить модели запомнить и не забыть важную информацию со всех шагов, чтобы можно было зафиксировать как долгосрочные, так и краткосрочные воспоминания.

Гибридная модель LSTM/NN сочетает в себе LSTM и обычную NN, так что статические данные и данные во времени могут обрабатываться из разных сеансов внутри этой модели, как показано на рисунке 3, что может обеспечить лучшую производительность модели, чем при использовании стандартной LSTM или традиционной модели NN. В настоящее время такие настраиваемые мультимодельные структуры можно легко реализовать из пакетов Python с открытым исходным кодом, таких как Tensorflow, Keras или Pytorch.

Производительность модели и время обучения

Сравнение производительности моделей

В целом модели глубокого обучения обеспечивают лучшую производительность при больших объемах данных, чем классические модели машинного обучения. Часто лучший совет для повышения производительности модели с помощью модели глубокого обучения — просто использовать больше данных. С классическими алгоритмами машинного обучения это быстрое и простое решение не работает так же хорошо, и часто требуются более сложные методы для повышения производительности модели⁷. Чтобы проверить это общее понимание разницы между классическими моделями машинного обучения и моделями глубокого обучения, мы построили гибридные модели NN, LSTM, LSTM/NN и сравнили производительность этих моделей глубокого обучения с моделью Gradient Boosting Machine (GBM) при 100 K. и 1 ММ соответственно.

Результаты производительности модели, измеренные по площади под кривой рабочих характеристик приемника (AUC), перечислены в таблице 1. В масштабе 100 000 записей-членов GBM превзошел все протестированные модели глубокого обучения с точки зрения производительности модели. Сравнивая производительность трех моделей глубокого обучения друг с другом на этих данных относительно меньшего масштаба, самая сложная гибридная модель LSTM/NN показала худшие результаты. Это можно объяснить отсутствием достаточных данных для ограничения моделей глубокого обучения, что, вероятно, приводит к переоснащению⁸. При масштабе данных 1 млн производительность модели GBM и моделей глубокого обучения выше, чем их производительность при масштабе 100 тыс. Модель GBM и гибридная модель LSTM/NN достигли одинаково высокого AUC. Сравнивая абсолютное увеличение AUC, модель NN и гибридная модель LSTM/NN достигли большего, чем модель GBM. Это продемонстрировало положительное влияние на производительность модели более крупного обучающего набора, особенно для моделей с большим количеством параметров и более сложной структурой.

Время обучения работе с различными архитектурами

С целью понимания вычислительных возможностей различных платформ обучения моделей мы внедрили процессы обучения моделей глубокого обучения как на процессорных, так и на графических процессорах. Время обучения модели на 1 MM записей участников показано в таблице 2. Платформа GPU показала самую высокую скорость вычислений, о чем свидетельствует самое короткое время обучения для модели NN. Использование графического процессора значительно сократило время обучения сложных моделей, особенно на больших объемах данных. В настоящее время GPU считается сердцем глубокого обучения, частью искусственного интеллекта для обширных графических и математических вычислений, которые высвобождают циклы ЦП для других задач⁹.

Обзор и дальнейшие действия

· Модели NN, LSTM, гибридные модели LSTM/NN и GBM были построены на данных о членах в масштабе миллиона для прогнозирования склонности участников коммерческого медицинского страхования к увольнению с желаемыми значениями AUC.

· С миллионными обучающими данными гибридная LSTM/NN превзошла стандартную модель NN и продемонстрировала преимущества настройки структуры модели глубокого обучения для соответствия различным типам входных функций.

· Большой набор обучающих данных обеспечил больший прирост производительности для моделей глубокого обучения, чем для модели GBM, благодаря поддержке графического процессора, которая значительно сократила время обучения модели.

· Мы продолжим изучать моделирование прогнозирования отсева участников, используя неструктурированные данные в качестве входных признаков, а также другие типы структур моделей глубокого обучения и их комбинации.

· Мы будем дополнительно тестировать существующие алгоритмы интерпретации глубокого обучения, чтобы лучше определить и понять ключевые движущие факторы в прогнозировании склонности участников медицинского страхования.

Ссылки:

1. Почему удержание так важно для страховых агентов — Agentero

2. https://towardsdatascience.com/the-data-scientists-guide-to-subscription-businesses-70b1fc4b4493

3. https://becominghuman.ai/deep-learning-and-its-5-advantages-eaeee1f31c86

4. https://www.educba.com/what-is-neural-networks/

5. https://www.ibm.com/cloud/learn/neural-networks

6. https://www.geeksforgeeks.org/understanding-of-lstm-networks/

7. https://towardsdatascience.com/deep-learning-vs-classical-machine-learning-9a42c6d48aa

8. https://machinelearningmastery.com/impact-of-dataset-size-on-deep-learning-model-skill-and-performance-estimates/

9. https://medium.com/@shachishah.ce/do-we-really-need-gpu-for-deep-learning-47042c02efe2#:~:text=ЦП%20имеют%20несколько%20сложных%20ядер%20которые %20run%20processes,CPU%20where%20as%20CUDA%20code%20runs%20on%20GPU