Введение

В этой статье представлены и объяснены три мощных приложения машинного обучения. Все эти три приложения актуальны во множестве секторов экономики и доказали свою полезность в разнообразных бизнес-моделях. Для каждого приложения машинного обучения объясняются основные концепции наряду с кратким кратким описанием технических аспектов нескольких распространенных методов, с помощью которых может реализоваться это приложение. Кроме того, тематические исследования используются, чтобы сделать приложение более понятным и дать представление об их потенциале. Эта статья написана максимально понятно, и опыт работы в области машинного обучения или компьютерных наук совершенно не обязателен.

Прогнозирование спроса

Первая тема называется прогнозированием спроса. Цель прогнозирования спроса — получить представление о будущем спросе на определенный продукт или услугу. Это понимание почти всегда достигается путем некоторого анализа исторических данных, которые представлены в виде временных рядов. Временной ряд — это тип графика, который показывает количество чего-либо за постоянное время движения. Это может быть что угодно, от потребления электроэнергии в Утрехте за последние 3 месяца до количества бутылок шампуня, проданных L'Oreal с 1960 по 1999 год.

Графики временных рядов могут быть очень полезны бизнес-стратегам для выявления закономерностей в поведении продаж, чтобы предвидеть показатели продаж в будущем. Что потенциально еще лучше, так это когда компьютерная модель может идентифицировать те же самые закономерности и создавать подробный прогноз будущего спроса и доходов, в то же время включая гораздо больше деталей, на которые способен аналитик-человек.

Математические модели

К счастью, существует множество современных методов, которые были созданы именно для этой цели. В этом разделе рассматриваются различные модели прогнозирования, которые по своей природе являются математическими. Предпосылка этих моделей состоит в том, чтобы разложить временной ряд на независимые составляющие, к которым можно подойти и воспроизвести математически. Модели в этом разделе называются авторегрессионными моделями и работают с предположением, что график временного ряда можно разложить на три составляющие, которые затем можно использовать для создания прогноза.

Техническое объяснение

Первая составляющая — это скользящее среднее, оно используется для фиксации широких тенденций градиента временного ряда независимо от локальных колебаний. Во-вторых, есть авторегрессионная часть, которая предсказывает колебания вокруг ранее установленной скользящей средней. Эти колебания находятся под сильным влиянием моделей подобных колебаний в прошлом. Эта часть модели особенно эффективна при прогнозировании кажущихся случайными колебаний, которые имеют определенную постоянство на протяжении многих лет. Третьим компонентом является шум. Функция шума заключается в включении определенной степени случайности в ход временного ряда и предполагает наличие некоторой степени случайности/непредсказуемости в процессе реального мира, который генерирует данные во временном ряду. Это делается путем включения всех непредсказуемых колебаний в прошлом в распределение вероятностей. Затем это распределение используется в качестве члена ошибки, когда прогнозируется, что новые точки данных будут поддерживать ту же степень случайности, что и остальная часть временного ряда. Распределение вероятности ошибки может быть создано оценкой максимального правдоподобия или оценкой параметрической плотности.

Не все модели авторегрессии используют эти три компонента в качестве основы, но это объяснение дает представление о функциональности и применимости моделей авторегрессии. Теперь мы углубимся в некоторые примеры авторегрессионных моделей и покажем их эффективность в прогнозировании спроса.

АРИМА

ARIMA является одной из наиболее сложных авторегрессионных моделей и расшифровывается как AutoRegressive Integrated Moving Average. Это модель с хорошей степенью адаптивности, состоящая из трех ранее объясненных составляющих. Математическое ядро ​​и параметры этой модели выходят за рамки этой статьи, но модель вычисляет следующую неизвестную точку данных и может использовать различные области исторических данных во временном ряду для достижения этого. Отличным примером применения ARIMA является тематическое исследование использования электроэнергии в Китае. Для такой быстро развивающейся страны, как Китай, где ежегодный рост потребления электроэнергии на 34% не является чем-то необычным, чрезвычайно важно контролировать будущие потребности в электроэнергии. Используя данные об использовании с 2006 по 2010 год и вариант модели ARIMA, был создан прогноз с MAPE 3%. MAPE означает среднюю среднюю процентную ошибку и обозначает абсолютную разницу между прогнозом и реальными цифрами в процентах от прогноза. Благодаря моделям ARIMA китайские исследователи смогли с большой точностью предсказать будущий спрос на электроэнергию в различных провинциях¹. Примеры еще большего масштаба имеют место в индийском регионе Канчипурам: 1200 различных наборов данных об осадках, зарегистрированных с 1902 по 2002 год, исследователи создали прогноз осадков на 4 года с помощью модели ARIMA. Этот прогноз достиг MAPE 6,5%.² Процессы в мире природы, а также процессы, диктуемые человеком, оказались предсказуемыми.

Методы прогнозирования временных рядов, такие как ARIMA, особенно полезны при прогнозировании данных длинных временных рядов, которые имеют несколько сезонный характер, тем не менее экстремальные внешние факторы остаются большой проблемой для авторегрессионных моделей и всех прогностических моделей в этом отношении. Подумайте о стихийных бедствиях или экономических кризисах. Подобные внезапные внешние события застигнуты врасплох даже предприятиями с самыми изощренными методами прогнозирования. Некоторые события просто невозможно предсказать, исходя из прошлого. Кроме того, не все процессы подходят для авторегрессионных моделей. Если ход графика временного ряда чрезвычайно изменчив и кажется совершенно случайным, другой подход к прогнозированию может оказаться гораздо более эффективным. Нейронные сети также способны делать прогнозы на основе данных временных рядов, благодаря своей сложной и очень гибкой природе, они могут фиксировать более глубокие структуры и закономерности в данных, на которые неконтролируемые статистические модели просто не способны. С другой стороны, нейронные сети настолько разнообразны по своей архитектуре, что выбор правильной сети для предсказания конкретного процесса может занять очень много времени. Нейронные сети также работают как «черный ящик», что означает, что они не обеспечивают прозрачности того, как модель формирует свой прогноз. детерминированный.

Кроме того, в науке о данных и эпистемологии существует принцип, согласно которому максимально простые модели и решения являются лучшим способом приблизиться к реальности. Это называется «бритвой Оккама» и, безусловно, актуально, когда речь идет о выборе модели. В искусственном интеллекте существует проблема, называемая переоснащением, которая возникает при использовании слишком сложных моделей. В результате получается модель, которая идеально отражает характер данных, на которых она обучается, она настолько хорошо адаптирована к обучающим данным, что больше не обобщается на новые данные, полученные в том же процессе, что и обучающие данные. Это, помимо прочего, объясняет, почему нейронные сети в основном используются для решения задач, которые слишком сложны для статистических моделей или когда все другие варианты исчерпаны.

Данные и условия

Для прогнозирования временных рядов очень важно иметь последовательные и точные данные. Последовательны в том смысле, что отсутствуют пропущенные значения. Если несколько точек данных 4-летней давности отсутствуют, это не катастрофа для эффективности модели, но непрерывные данные очень ценны для прогнозирования временных рядов. Также крайне важно, чтобы сами данные были точными, в случае, если 10% ежемесячных продаж компании не включены в набор данных, это может означать разницу между точно прогнозируемым сезонным колебанием или полным отсутствием такого развития. Окончательное решение о статистической модели, такой как авторегрессионные модели или более сложная модель машинного обучения, зависит от количества и надежности данных временных рядов, а также от мотивации компании, которая хочет получить представление о своих данных.

Системы рекомендаций с совместным фильтром

Системы рекомендаций или алгоритмы рекомендаций — термины, которые стали слишком знакомыми для большинства из нас. От Netflix до интернет-магазинов, почти все они используют какую-то систему рекомендаций. В этом разделе подробно объясняется одна из наиболее широко используемых и эффективных форм рекомендательных систем. Он называется совместным фильтром и используется такими компаниями, как Netflix, Amazon и YouTube. «Совместная фильтрация» звучит сложно, но основная предпосылка интуитивно понятна. Это ядро ​​алгоритма рекомендаций, основанного на предположении, что если два человека одинаково оценивают продукты, то продукт, который понравился одному из них, понравится и другому.

Техническое объяснение

Все оценки пользователей могут быть представлены в виде матрицы, в которой у каждого пользователя есть столбец, содержащий их оценки. Этот столбец часто называют вектором, этот вектор рассматривается в контексте коллаборативных фильтров как количественная оценка вкуса пользователя. Своего рода вкусовой профиль пользователя. С помощью метрики под названием «косинусное сходство» можно рассчитать сходство между векторами. Это не единственный способ измерения сходства, и в разных ситуациях другие меры сходства могут оказаться более эффективными, но косинусное сходство просто измеряет сходство в направлении двух векторов, что чрезвычайно полезно, когда мы хотим сравнить рейтинги разных пользователей. . С помощью этой меры мы позволяем себе создавать рейтинги для пользователей различных продуктов, которые они раньше не видели. Этот рейтинг генерируется путем взвешивания среднего рейтинга ряда других пользователей, которые имеют высокое косинусное сходство с пользователем, для которого создается новый рейтинг. Вес часто определяется степенью сходства двух пользователей (более похожие пользователи вносят больший вклад в рейтинг, чем менее похожие пользователи). В рекомендательной системе пользователю рекомендуется продукт без рейтинга, который таким образом получает наивысшую оценку. Это классическая реализация рекомендательной системы на основе коллаборативных фильтров, когда похожие пользователи бессознательно рекомендуют друг другу свои любимые продукты.

Есть и другой подход к совместному фильтру, в котором продукты играют центральную роль, а не пользователи. Этот метод основан на тех же принципах: все продукты имеют рейтинговый вектор вместо пользователей. Этого можно добиться, используя строки вместо столбцов одной и той же рейтинговой матрицы. Аналогичным образом вычисляются косинусные подобия. Рекомендуются товары с высокой степенью сходства с товарами, которые уже нравятся пользователю. Если многие люди купили или полюбили два продукта, велика вероятность того, что эти продукты хорошо сочетаются друг с другом.

Приложения

Выбор элемента или пользовательского совместного фильтра полностью зависит от количества и размерности доступных данных. В этом методе важно, чтобы кто бы ни играл центральную роль, пользователи или элементы, было достаточно данных для облегчения сравнения между ними. Отличным примером успешной реализации совместного фильтра является хорошо известная компания Netflix, на протяжении многих лет они разработали очень продвинутую систему рекомендаций, которая использует различные типы данных, такие как продолжительность просмотра, история поиска и демографические данные, чтобы еще больше персонализировать рекомендацию. но совместная фильтрация по-прежнему играет решающую роль. Эта система рекомендаций настолько эффективна, что, по оценкам самого Netflix, она отвечает за 80% их времени просмотра и ежегодно экономит компании 1 миллиард долларов США в 2016 году. Интернет-магазины и онлайн-компании также могут получить огромную выгоду от системы рекомендаций. Персонализированные предложения, предназначенные для отдельных клиентов, — это просто эффективный способ удерживать внимание дольше или продавать больше продуктов, а совместный фильтр — отличный способ персонализировать эти предложения⁵.

Данные и условия

Наиболее важными данными для коллаборативного фильтра являются данные о продажах или данные рейтинга. Оптимальная ситуация — это ситуация, когда у многих клиентов есть тонны покупок или оценок, чтобы сходство было более точным и было больше пользователей с высоким сходством. Эффективность совместной фильтрации зависит от того факта, что у каждого клиента уже есть некоторые данные, на которых можно основывать рекомендации. Здесь возникает первая проблема с совместными фильтрами, она называется «проблема холодного старта» и возникает, когда новый пользователь регистрируется и начинает делать покупки. Разумеется,

нет рейтингов, на которых можно основывать рекомендации для этого пользователя. Существует более чем достаточно элегантных решений для этой ситуации, и другие методы могут быть даже объединены с совместным фильтром для более сложной системы рекомендаций. Аналогично другим методам машинного обучения: чем больше и плотнее данных, тем эффективнее будет модель, и в этом случае тем лучше рекомендации.

Оценка жизненного цикла клиента

Этот раздел о CLVE относится к предприятиям, которые продают продукты, которые не являются договорными. Для бизнес-моделей на основе подписки существуют различные методы CLVE и сегментации клиентов, которые не обсуждаются в этой статье.

Оценка пожизненной ценности клиента — это метод, при котором ценность, которую клиент будет предоставлять бизнесу на протяжении всей своей жизни, оценивается и определяется количественно. Цель состоит в том, чтобы отделить постоянных клиентов от разовых или бывших клиентов, чтобы эту информацию можно было использовать в стратегических или маркетинговых целях. Важным принципом оценки продолжительности жизни клиента является RFM. RFM означает новизну, частоту и денежную стоимость. Давность просто указывает на дату последней покупки, чем позже взаимодействие, тем выше оценка давности. Давность не означает строго покупки, другие формы взаимодействия также могут считаться взаимодействием с компанией (т. е. последний раз, когда конкретный покупатель что-то добавлял в свою корзину). Частота — это количество покупок или взаимодействий, совершенных клиентом за определенный период времени. Клиенты, которые часто взаимодействуют с компанией, вероятно, будут более лояльны к компании, чем относительно неактивные клиенты. разовые клиенты обычно сегментируются в свою собственную категорию. Денежная стоимость обозначает вклад в доход определенного клиента. Денежная стоимость просто означает сумму денег, которую клиент потратил с компанией в течение определенного периода времени.

Три переменные RFM позволяют просматривать и ранжировать клиентов с точки зрения их потенциальной прибыли. Самая основная версия CLVE основана на расчете RFM. Это просто формула, в которой используются три переменные для получения оценки, обозначающей будущий потенциал этого клиента. Немного более изощренным является метод, при котором клиент получает балл для каждой переменной в RFM, а три балла объединяются в окончательный балл через средневзвешенное значение. Эти оценки даются с помощью метода, называемого сегментацией клиентов. Сегментация клиентов — это разделение клиентов на группы на основе их характеристик (в данном случае характеристиками являются их значения RFM). Существует множество неконтролируемых методов машинного обучения, таких как кластеризация k-средних, которые делают именно это. Когда различные сегменты создаются алгоритмом на основе значений RFM, каждому кластеру присваивается оценка, которая представляет их потенциал в будущем. Полученные оценки и связанные с ними группы клиентов могут быть очень полезны для маркетинговых и стратегических отделов компании, а также дают представление о различном поведении клиентов и обеспечивают более персонализированный маркетинг.

Конечно, есть нечто большее, чем эти относительно простые методы, основанные на RFM. Существует множество моделей, которые используют данные о покупках и оценки RFM для создания прогноза. В следующем подразделе мы углубимся в конкретные семейства моделей, которые были точно настроены для оценки ценности жизненного цикла клиента. Эти подходы сопровождаются примерами и тематическими исследованиями, чтобы сделать их функциональность и применимость более понятными.

модели BTYD

Многие математические модели, которые оценивают пожизненную ценность клиента, относятся к категории моделей BTYD (Buy ‘Till You Die), эти типы моделей состоят из двух составляющих.

  1. Вероятность оттока моделирует вероятность того, что клиент навсегда ушел из бизнеса и больше не купит продукт в какой-либо период времени.
  2. Во-вторых, это аппроксимация процесса покупки для клиента в виде распределения вероятностей. Этот процесс оценивает, сколько и как часто клиенты будут покупать, пока они «живы», в соответствии с вероятностью оттока.

Первую составляющую можно рассматривать как подбрасывание монеты: после успешного подбрасывания монеты и предположения о том, что клиент «жив», активируется стохастическое распределение вероятностей для расчета количества покупок или чистого денежного потока от клиента к компании. за заданный период времени. Эти вероятности полностью зависят от истории покупок клиентов. Таким образом, модели BTYD прогнозируют количество продуктов, которые купит конкретный клиент, с учетом его истории покупок.

Примером модели BTYD является Parto/NBD. Это относительно старый метод, впервые разработанный в 1980-х годах. И часто использовалась в основном с положительными результатами.⁶ Это математическая модель, которая, как и другие модели BTYD, прогнозирует будущее покупательское поведение для каждого отдельного клиента. Модель предполагает наличие отрицательной зависимости между временем, прошедшим после последней покупки, и количеством продуктов, которые покупатель купит в будущем. Эта модель оказалась особенно эффективной для клиентов с длительной и относительно активной историей. Прекрасное применение различных моделей в семействе BTYD основано на двух разных наборах данных о сетях супермаркетов, которые охватывают более 146 недель (2001–2003 гг.). Эти наборы данных используются для прогноза продаж примерно на 90 недель позже. видно внизу.

Преимущество моделей BTYD заключается в том, что каждая прогнозируемая продажа привязана к покупателю. Модель прогнозирует для каждого клиента, а на графиках показаны совокупные прогнозируемые продажи всех этих клиентов. Эти типы моделей настолько популярны, что в известном языке программирования Python есть библиотека под названием Lifetime, предназначенная для простой и понятной оценки потребительской ценности и сегментации клиентов.

Существует множество подходов к оценке жизненного цикла клиента, от простой формулы до сложных моделей машинного обучения, которые, к сожалению, не хватит места для описания в этой статье. Сложность подхода, в котором компания хотела бы использовать оценку жизненного цикла клиента, также зависит от того, насколько важны результаты для стратегии компании. Хорошее эмпирическое правило: если в данных о покупках имеется богатая история, должна существовать методика, облегчающая оценку жизненного цикла клиента, которая соответствует потребностям организации.

Данные и условия

Наиболее важные данные для оценки жизненного цикла клиента довольно интуитивно понятны. Все модели работают с данными о давности, частоте и денежном выражении. Все эти переменные можно взять из набора данных истории покупок, который фиксирует все покупки с соответствующими клиентами и датой. Эти данные лежат в основе всех моделей, связанных с этой техникой, от самой простой формулы RFM до сложных методов машинного обучения. Чем полнее данные и чем активнее клиенты, тем полезнее и надежнее будут результаты.

Общее сообщение

Есть еще несколько важных факторов, которые следует учитывать при внедрении машинного обучения или статистических моделей в коммерческих целях. Во-первых, это параметры модели, практически все модели машинного обучения имеют параметры, которые определяют точную функциональность модели, изменения этих параметров приводят к изменению выходных данных модели, к сожалению, нет места для объяснения всех соответствующих параметров вышеупомянутых моделей. поскольку это сделало бы эту статью значительно менее доступной. Чтобы настроить параметры модели на оптимальные значения для задачи, часто требуется кто-то с опытом работы с конкретной моделью или наукой о данных, поскольку существует множество способов неправильной настройки параметров, которые приведут к бесполезным прогнозам.

Во-вторых, все методы прогнозирования в этой статье прогнозируют шаг за шагом. Это означает, что неизвестные точки данных генерируются одна за другой, точки данных, прогнозируемые на отдаленное будущее, также учитывают прогнозы на ближайшее будущее, что создает прогноз на основе прогноза. Чем дальше в будущее мы пытаемся прогнозировать, тем менее надежным становится результат. Вот почему компании, которые широко используют методы прогнозирования, часто создают ежемесячные или еженедельные прогнозы, в которых используются самые последние доступные данные. Это делается для того, чтобы все прогнозы были максимально приближены к реальности.

Заключительные слова

Отрасли экономики становятся все более эффективными и конкурентоспособными. Поскольку процентные ставки низкие, а крупные вливания капитала играют важную роль в стимулировании мировой экономики, цепочки поставок постоянно оптимизируются, и компании ищут все более творческие способы достижения устойчивого конкурентного преимущества на своем рынке. В дополнение к этому все больше и больше экономической активности происходит в Интернете, и нет абсолютно никаких признаков того, что она замедляется. Сочетание этих разработок создает подходящую среду для статистических моделей и моделей машинного обучения, чтобы обеспечить такое устойчивое конкурентное преимущество для компаний, которые имеют возможности в своей организации для эффективного использования возможностей этих моделей. Например, создавая информацию о поведении клиентов или автоматически применяя эту информацию, чтобы влиять на поведение клиентов. Существует бесчисленное множество примеров прибыльных приложений машинного обучения, которые создают устойчивое конкурентное преимущество для компаний, обладающих ноу-хау для их эффективного использования. Готова ли ваша организация использовать свои данные в качестве катализатора роста?

[1] https://www.sciencedirect.com/science/article/pii/S0301421512004387?casa_token=kjd5MvpeAOAAAAAA:Hs4LGMz3nknbvP3rCOU_-t8I7Db2VYq9MzdAXa0oPgUYL5LbLQuHJ38221raDTDdOAfVOeESyy

[2] https://www.researchgate.net/publication/338832234_Arima_Model_Perfect_Fit_-A_case_study_with_Kanchipuram_District_Rainfall_Data_Set

[3] https://www.researchgate.net/publication/327752791_Demand_Forecasting_Using_Artificial_Neural_Networks-A_Case_Study_of_American_Retail_Corporation

[4] https://dl.acm.org/doi/10.1145/2843948

[5] https://www.researchgate.net/publication/220628661_A_Comparison_of_Collaborative-Filtering_Recommendation_Algorithms_for_E-commerce

[6] h ttps://www.researchgate.net/publication/284443794_Improved_ParetoNBD_Model_and_Its_Applications_in_Customer_Segmentation_based_on_Personal_Information_Combination

[7] h ttps://www.academia.edu/6980832/Empirical_validation_and_comparison_of_models_for_customer_base_analysis

Первоначально опубликовано на http://docs.google.com.