ИИ на помощь: прогноз претензий

Обзор

Страховая отрасль является одной из первых, кто внедрил ванильные алгоритмы, такие как логистическая регрессия. В страховой отрасли в последнее время наблюдается всплеск использования прогнозной аналитики для анализа вероятного будущего претензии. Результаты этих алгоритмов обеспечивают поддержку принятия решений для менеджеров по претензиям.

Упомянем некоторые из многих вариантов использования в страховой и перестраховочной отраслях ниже:

Создайте оценочную карту рисков, чтобы отметить самые рискованные претензии, чтобы менеджеры претензий могли сосредоточиться на этих претензиях и разработать стратегии для их смягчения.
Лучше систематизируйте данные о претензиях, чтобы понять путь клиента на протяжении всего жизненного цикла.
Прогнозирование ожидаемого количества претензий на год или квартал

Вариант использования, который я бы описал в этом блоге, заключается в прогнозировании ожидаемого количества претензий в год для конкретного автомобиля. После того как вы укажете претензии, вы также можете пометить их от менее рискованных до наиболее рискованных.

Это также может быть использовано в других отраслях промышленности, и нет необходимости ограничивать его автомобильной промышленностью.

Предварительная обработка данных

Чтобы получить точные прогнозы, вы должны получить данные из нескольких источников и выполнить проектирование функций и обработку данных, чтобы создать окончательный вход. Ниже приведен список атрибутов/наборов данных, которые могут вам понадобиться для начала процесса моделирования:

Детали полиса (номер, дата, срок владения и т. д.)
Информация о премиях и убытках (сумма премии, убытки и т. д.)
Информация о транспортном средстве (номер, описание, год выпуска, информация о местоположении, использование в коммерческих целях и т. д.)
Историческая информация о претензиях (количество претензий, код причины и т. д.)

Необязательные атрибуты:

Данные переписи (население района, доход и т. д.)
Информация о водителе

Кроме того, рекомендуется иметь хорошую историю (возможно, от 4 до 5 лет), поскольку такие наборы данных, как правило, редки.

На этом этапе также важно разделить ваш набор данных на обучающий, тестовый и удерживающий. Вы построите модель на данных обучения, настроите гиперпараметры на данных теста и выполните проверку модели на данных задержки.

Мы начнем с простой модели, такой как дерево решений, а затем перейдем к более сложным алгоритмам, таким как модель повышения градиента.

Моделирование

Дерева решений

Деревья решений — это простой, но широко используемый алгоритм классификации. Для нашего варианта использования мы будем использовать регрессор деревьев решений. Деревья решений используют бинарные правила для принятия решения (целевого значения). Он использует MSE (среднеквадратическую ошибку), чтобы решить разделить узел на один или несколько подузлов. Он выбирает значения с наименьшим MSE. Окончательные прогнозы, сделанные деревом решений, представляют собой средние значения зависимой переменной (количество заявок) в этом листовом/терминальном узле.

Важные параметры

Модель можно легко реализовать на R или Python с помощью sklearn. Некоторые из параметров следующие:

Критерий: функция для измерения качества разделения (среднеквадратичная ошибка для нашего варианта использования).
Максимальное количество функций: количество функций, которые можно использовать для наилучшего разделения.
Скорость обучения: насколько сократится вклад каждого дерева
Максимальная глубина: Максимальная глубина отдельных оценок регрессии. Максимальная глубина ограничивает количество узлов в дереве.

Преимущества

Легко понять
Требуется меньше подготовки данных

Недостатки

Переоснащение
Нестабильный (небольшие отклонения в данных могут привести к совершенно другим результатам)
Менее точный для непрерывных переменных

2. Модели повышения градиента

Он основан на идее, что несколько слабых учеников объединяются, чтобы сформировать сильного ученика. Цель алгоритма — уменьшить ошибку на каждом шаге. Когда целевая переменная непрерывна (как в нашем случае использования), мы будем использовать Gradient Boosting Regressor. Поскольку целью здесь является уменьшение функции потерь, используемой здесь функцией потерь будет MSE (среднеквадратичная ошибка). Проще говоря, функция потерь будет основываться на ошибке между фактическим и прогнозируемым количеством претензий.

Важные параметры и настройка гиперпараметров

Модель может быть легко реализована на R или Python. Вот некоторые из атрибутов:

Функция потери
Скорость обучения: насколько сократится вклад каждого дерева
Количество оценщиков: количество этапов повышения для выполнения. Повышение градиента относительно устойчиво к переобучению, поэтому большое количество обычно приводит к лучшей производительности.
Максимальная глубина: Максимальная глубина отдельных оценок регрессии. Максимальная глубина ограничивает количество узлов в дереве.

Важной особенностью моделирования GBM является переменная важность. Вы можете добиться этого, используя сводную функцию для вывода. Таблица и график, созданные как часть этого, обеспечат наиболее важные переменные в обучающем наборе или те, которые привели к процессу принятия решений.

Поскольку GBM имеет тенденцию к переоснащению, важно выполнить настройку гиперпараметров. Обычно это достигается на вашем тестовом наборе. Это дало бы вам идеальное число для каждого параметра, который должен быть указан в вашей модели, прежде чем она начнет соответствовать. Он позволяет избежать переобучения, пытаясь выбрать точку перегиба, в которой производительность тестового набора данных начинает снижаться. Напротив, производительность обучающего набора данных продолжает расти по мере того, как модель начинает переобучать.

Вы можете проверить производительность своей модели, вычислив MSE (среднеквадратическую ошибку) или RMSE в своем поезде, протестировать и сохранить данные и сравнить результаты.

Преимущества