Это заключительная часть серии статей об удовлетворенности клиентов. В этой статье представлено пошаговое руководство по процессам ETL, связанным с промежуточным хранением данных и экспериментами с несколькими моделями машинного обучения.

Описание данных

Набор данных поезда содержит примерно 104 тыс. наблюдений с 24 переменными. Рисунок 1 ниже иллюстрирует описательный вид набора данных о пассажирах авиакомпаний. Изменения, внесенные в предварительный набор данных: (i) роль идентификатора была изменена с входной на идентификатор (ii) функция удовлетворенности была установлена ​​​​на целевую роль. Первое было выполнено, чтобы предотвратить ввод переменной id в качестве переменной-предиктора. Последнее должно было позволить прогнозное моделирование на основе бинарной зависимой переменной, удовлетворенности.

Примечание: имена переменных были изменены для удобства чтения.

Исследование данных

Перед построением любой модели машинного обучения необходимо понять закономерности в данных, которые могут повлиять на прогнозирование или классификацию.

Проверка баланса классов зависимых переменных

Здесь мы начинаем с понимания того, являются ли целевые классы переменных сбалансированными, поскольку это может привести к серьезному смещению в сторону широко представленного класса в классификации.

Целевая переменная имеет небольшой уклон в сторону неудовлетворительного результата с частотой 1136, что дает 56,7%, в то время как удовлетворенный класс имеет 864 наблюдения, что соответствует 43,3%. Рисунок 2 подтверждает, что балансировка классов не требуется, поскольку распределение приведет к систематической ошибке неправильной классификации.

Идентификация отсутствующего значения

Узел HP Explore показывает два важных вывода; наличие отсутствующих и недопустимых значений.При анализе переменных класса и интервала было обнаружено, что отсутствующие значения существуют только в интервальных функциях. На рис. 3 показаны 300 отсутствующих значений в функции «Задержка_задержки_прибытия_в_минутах».

Обнаружение аномалий данных

В приведенной ниже таблице статистики показаны аномалии, которые вызывают проблемы с качеством данных. Наличие нулей в качестве нижних пределов для всех 15 сервисных параметров, таких как Baggage_Handling и Checking_Service, означает наличие неизвестных значений для этих переменных, которые были неправильно введены как 0.

Распределение переменных

На приведенной ниже гистограмме эксцесса показано, что все интервальные переменные, кроме трех, имеют положительную асимметрию. Контрольной мерой для этого будет решение двух выявленных проблем с качеством данных. Рисунок 5 также иллюстрирует график транзитивного эксцесса, который является более идеальным для получения подходящей модели.

Предварительная обработка данных

В этом разделе основное внимание будет уделено процессам, предпринятым для подготовки данных для моделирования.

Преобразование данных с помощью HP Transform Node

Чтобы решить проблему с недопустимыми данными, обнаруженную ранее в переменных измерения, нули будут заменены отсутствующими значениями. Преобразование HP (+NAs) использовалось для решения этой задачи с использованием простого кода SAS, показанного на рисунке 6.

Проверка добавления отсутствующих значений была выполнена путем добавления второго узла HP Transformation с суффиксом «(View NAs)», как показано на рисунке 8. Результаты представлены на рисунке ниже. Age, Flight_Distance и все переменные класса не претерпели никаких преобразований, так как недействительных записей обнаружено не было. Исключением была переменная Baggage_Handling, у которой не было нулевых значений. Это преобразование было выполнено исключительно из эстетических соображений, все значения интервалов должны иметь один и тот же префикс «Новый», чтобы упростить выбор этих переменных в узле метаданных, показанном на рисунке 8.

Методология

Конвейер, используемый в рабочем процессе классификации, показан ниже. Для достижения разных целей использовались две высокопроизводительные модели:

я). Дерево HP:модель дерева решений, которая обычно собирает информацию о бизнесе, создавая выходные данные структурированного запроса на основе параметров и их значений в данных.

ii). HP Forest: древовидная модель случайного леса, применяемая для сбора оценок точности классификации с ошибочной классификацией, установленной в качестве метрики оценки по умолчанию. Эта модель показывает, насколько хорошо модель классифицирует удовлетворенность клиентов на основе параметров обслуживания и демографических данных клиентов.

Выбор переменной

В качестве входных переменных модели использовались вновь созданные признаки, требующие масштабирования. В нижней половине рисунка ниже показаны все разрешенные функции. Выбор переменных выполнялся через узел метаданных, как показано на рисунке выше.

Раздел данных

Случайная выборка использовалась для разделения данных обучения и проверки на 70 и 30 процентов соответственно.

Вменение данных с помощью HP Impute

Введение отсутствующих значений, как объяснялось ранее, предназначено для контроля качества данных путем отрицания недопустимых нулевых значений с последующим выполнением импутации. Опция типа индикаторной переменной была установлена ​​как уникальная для вмененных переменных. Это особенно важно, поскольку использование индикаторов отсутствующих значений в условно исчисленных переменных, когда они используются в качестве входных переменных, помогает улучшить возможности прогнозирования модели.

Проверка корреляции переменных

Этот этап имеет жизненно важное значение, поскольку он показывает, какие объясняющие признаки после этапов разделения данных и вменения связаны между собой в высокой степени линейно. Если существует мультиколлинеарность, точность оценочных коэффициентов ослабляет статистическую мощность модели. Отсюда и необходимость в этой корреляционной проверке.

Как видно из приведенной ниже корреляционной матрицы, мультиколлинеарность не имеет большого значения, чтобы влиять на последующие модели прогнозирования.

Сбор данных

Две высокопроизводительные модели, а именно HP Forest и HP Tree, были внедрены для решения проблемы удовлетворенности пассажиров, с которой сталкивается авиакомпания. Модель HP Forest была разработана, чтобы предоставить прогнозную модель, позволяющую авиакомпаниям понимать тенденции в данных, связанных с клиентами. Моделирование дерева решений было выполнено, чтобы дать представление о демографических характеристиках клиентов на основе данных, что привело к тому, что авиакомпания знает, как настроить свои услуги для улучшения качества обслуживания клиентов.

Эксперимент 1. Высокопроизводительные случайные леса

Модель HP Forest предоставляет средства для понимания настроений пассажиров на основе рейтингов параметров обслуживания. Эта модель была в основном разработана для прогнозирования удовлетворенности клиентов. Эксперименты, проведенные путем изменения того, как модель случайного леса вычисляет важность переменных. Это было достигнуто с помощью методов функции потерь в свойствах оценки используемых моделей.

Вышеупомянутое уравнение означает первый шаг в важности признаков, случайный лес подбирается к данным. Ошибка процесса подбора вне пакета для каждой точки данных записывается и усредняется по лесу. Недостаток этого метода в том, что он предпочитает данные с категориальными переменными и имеет больше уровней. Именно по этой причине были сочтены необходимыми эксперименты, основанные на методах переменной важности. В таблице 1 показана схема экспериментов с моделями леса, представленная в следующих разделах.

Проверка и оценка модели

Этот эксперимент показывает, насколько сильно метод выбора поддерева влияет на модель. В то время как ограничения набора данных, такие как размеры, типы данных переменных и размер как обучающего, так и проверочного разделения, оказывают общее влияние на результат модели, определение критерия выбора для разделения листа не менее важно. Было обнаружено, что здесь поддерево уменьшения потерь работает наименее эффективно. Учитывая, что все модели работали с почти одинаковой степенью точности, единственным фактором был метод поддеревьев, используемый во всех трех моделях деревьев.

Модель создала 29-листное дерево решений с интересными результатами. Обрезка дерева выполнялась вручную путем систематического выбора узлов на основе количества наблюдений.

Эксперимент 2. Высокопроизводительные деревья решений

Модели дерева решений особенно полезны для понимания иерархического или онтологического шаблона и их последующих последствий, таких как вероятность исходов событий, затраты и полезность. В целом, алгоритмы дерева решений иллюстрируют операторы условного контроля, которые применительно к исследованию операций могут привести к существенной идентификации стратегических целей и ключевых показателей эффективности. Целью этой модели с помощью SAS Enterprise Miner является прогнозирование значения целевой переменной «Удовлетворение» на основе входных переменных. Это создаст для авиакомпании подход к принятию решений на основе данных. Эта полезная информация будет дополнительно изучена путем сопоставления заявленных бизнес-целей и разработанных правил узла.

Подход к интеллектуальному анализу данных дерева решений классификации, связанный с комбинацией математических методов для поддержки категоризации, описания и обобщения набора данных. Уравнение ниже изображает идею деревьев решений.

Переменная Y является целевой переменной, которая описывается, классифицируется или обобщается. x — это вектор, состоящий из функций (x1, x2, x3,….), которые используются для этой конкретной задачи. В таблице 3 показаны основные различия между деревьями решений в этом эксперименте.

Проверка и оценка модели

После ранжирования производительности моделей основное внимание было уделено дереву решений с методом поддерева C4.5, поскольку он работал лучше, чем модели с методами поддерева «Стоимость-сложность» и «Оценка».

Эта модель отличается от первой двумя способами; один, выбрав метод поддерева C4.5 и однократное использование входных данных. Другие необъявленные настройки SAS Miner остаются в своих позициях по умолчанию.

Разница в производительности, связанная с изменением метода поддерева, минимальна, но существенна, особенно когда финансовые решения зависят от эффективности модели. С целью определения бизнес-правил через деревья решений нельзя недооценивать это улучшение производительности. В большинстве случаев это может быть разницей между способностью авиакомпании достигать своих бизнес-целей или нет.

В будущем мы увидим, как эти правила узла можно интерпретировать в бизнес-решениях и рекомендациях по повышению рейтинга удовлетворенности клиентов.

Критические интерпретации результатов

В этом разделе будут подробно описаны результаты моделирования и синтеза SAS Miner Enterprise с поставленными бизнес-целями, которые решаются с помощью этого аналитического решения на основе данных. Две разработанные модели были предназначены для решения разных задач; древовидные модели ориентированы на предоставление действенной информации с выявленными в данных тенденциями. Модель леса в значительной степени целеустремленна в своем дизайне, поскольку они согласованы с прогностической аналитикой.

Шаблоны удовлетворенности клиентов, созданные с помощью древовидного моделирования HP

Выбранная и наиболее эффективная модель дерева решений с методом поддерева C4.5 может использоваться для формирования параметрических бизнес-решений, поскольку она выделяет модели удовлетворенности клиентов когнитивным образом. На рис. 14 показаны 5 основных правил узлов из этой модели, которые могут быть приняты авиакомпанией для принятия действенных решений. Ниже приведен список сводных правил узла вместе с соответствующими деталями, которые поддерживают бизнес-решения в соответствии с бизнес-целями, представленными в следующем разделе.

a) Неудовлетворенные пассажиры авиалиний, путешествующих с личным транспортом: эти типы клиентов, скорее всего, будут недовольны, если оценка ниже 3 из 5. Согласно модели, около 3840 клиентов кто в личном путешествии типа путешествия выставил эту закономерность.

b) Неудовлетворенные постоянные клиенты в деловых поездках: риск потери постоянных клиентов демонстрируется с помощью этого правила узла. Почти 100% опрошенных 10 699 клиентов выразили неудовлетворенность обслуживанием авиакомпании. Хотя рейтинг службы онлайн-интернатов не был особенно низким; лояльные клиенты с уровнем от 60% (или 3/5) до 80% (или 4/5) проявляли склонность к недовольству услугами авиакомпаний.

c) Неудовлетворенные постоянные клиенты в классах Eco или Eco Plus:недовольство этих клиентов относительно похоже на недовольство постоянных клиентов в правиле узла 27, только это дает больше деталей путем классификации пассажиров. с их соответствующими классами. И Eco, и Eco Plus уязвимы из-за более высокого оттока постоянных клиентов, что снижает их пожизненную ценность.

d) Неудовлетворенные личные пассажиры в классах Eco или Eco Plus: это, как правило, расширение первого шаблона клиента, этот последний включает тип класса, к которому относятся эти клиенты. скорее всего внутри.

Коммерческая ценность, связанная с HP Forest Modeling

Прогнозная аналитика является основной причиной использования второго метода моделирования. Благодаря модели леса HP авиакомпания получает инструмент бизнес-аналитики, который обеспечивает высокую отдачу от инвестиций при применении к процессу принятия решений. Хотя эта модель не предоставляет семантических деталей, помогающих сформулировать ключевые показатели эффективности, она снижает бремя незнания того, какие клиенты, скорее всего, уйдут.

Рекомендации

a) Маркетинговые кампании: выявив клиентов, которые с наибольшей вероятностью уйдут или имеют низкую пожизненную ценность, авиакомпания может создать целевые маркетинговые кампании, чтобы избежать убытков. Эта потеря происходит за счет репутации компании, снижения чистой стоимости клиентов и, наконец, позиции роста в конкурентной авиационной отрасли. Это приведет к большей лояльности клиентов, увеличению доходов от продаж и увеличению популярности бренда.

b) Улучшение аспектов обслуживания: согласно выводам производных правил узла, наиболее влиятельными услугами для недовольных клиентов являются Wi-Fi на борту, онлайн-регистрация, обработка багажа и служба проверки. Эти услуги должны проходить проверку качества обслуживания, постоянное улучшение обслуживания в соответствии со стандартами, установленными Международной организацией гражданской авиации. Внешние аудиторы могут прозрачно обеспечить достижение этой бизнес-цели.

Обсуждение и заключение

Моделирование данных было разделено на две отдельные части: моделирование преимущественно прогнозной аналитики со случайными деревьями и деревья решений, которые содержали детали, связанные с настроениями клиентов. Таблица 5 сопоставляет цели с типом модели, по сути, она дает краткий обзор моделирования, реализующего цель. Комбинация обеих моделей обеспечивает решение проблемы низкой удовлетворенности клиентов за счет систематического взаимодействия с тщательно отобранными данными. Гиперпараметры модели были настроены таким образом, чтобы избежать предвзятости, переобучения и недообучения, позволяя использовать значительный объем данных, зарезервированных для проверки.

Мыслительный процесс, лежащий в основе моделирования дерева решений, заключался в том, чтобы вывести значимые шаблоны, которые можно легко интерпретировать и применять в бизнесе. Это было достигнуто за счет того, что модель создала подробные правила узлов с достаточно большими наблюдениями и результатами, чтобы их можно было уверенно передать руководству высшего уровня для принятия окончательных решений. Однако правила узла

Как видно из узловых правил на рисунке 14, уровень недовольства значительной части пассажиров был выявлен. Опасность потери лояльного клиента значительно выше в эконом-классе, связанные с этим сервисные параметры включают онлайн-посадку с высоким рейтингом (от 3 до 5) и низкие рейтинги службы досмотра и обработки багажа (менее 4). Индивидуальные поездки непропорционально подвержены недовольству пассажиров, так как большинство из них склонны к негативным отзывам об услугах.

Эта модель решает первую бизнес-задачу, которая фокусируется на понимании того, какие параметры обслуживания авиакомпаний и демографические характеристики клиентов влияют на их удовлетворенность. Кроме того, результаты неожиданно связаны с неудовлетворенными клиентами. Поскольку это основная проблема, с которой сталкивается авиакомпания, эта модель эффективно выявляет связанные тенденции, чтобы дать основанное на данных описание для дальнейшего развития понимания.

Наконец, эта модель служит основой для создания оптимальной стратегии, которая может существенно уменьшить недовольство клиентов, тем самым обеспечивая рост бизнеса и экономию затрат на маркетинговые кампании.

Спасибо, что прочитали…