Подробное описание вводящих в заблуждение оценок клиентов и того, как байесовское мышление обманывает наши убеждения.

На конкурентном рынке успех компании основан на удовлетворении строгих стандартов потребительской базы с утонченным и разборчивым вкусом. В частности, важны отзывы клиентов о продуктах. Но как нам судить о качестве продукта по отзывам покупателей?

В этой статье мы построим статистические модели для сравнения двух виртуальных продуктов (Lotus World и Toysmith), используя наблюдаемую оценку из отзывов клиентов. В частности, мы смотрим на количество раз, когда продукт получает определенный рейтинг (от 1 до 5 звезд).

Рейтинги клиентов анализируются с использованием байесовских концепций, таких как максимальная вероятность, максимальная апостериорная оценка, апостериорная средняя оценка, апостериорная прогнозная оценка и достоверный интервал.

Если вам нужно вспомнить о вероятностях и распределениях, статья ниже может вам подойти.



Модель максимального правдоподобия

Мы заинтересованы в оценке θi вероятности того, что клиенты оценят i количеством звезд. Поскольку каждая новая оценка имеет значение от 1 до 5, она соответствует категориальному распределению Кот (θ).

Для данного продукта нам дается вектор оценок R = [r 1, r 2, r 3, r 4, r 5]. Каждая оценка r _ i - это общее количество отзывов, получивших i -звездку. Каждый отзыв со знаком i -звездкой делается с вероятностью θi. Мы видим, что каждый обзор r не зависит от других и моделируется категориальным распределением:

Вероятность наблюдения вектора вхождений R из N независимых обзоров дается полиномиальным распределением, параметризованным θ :

логарифмическая вероятность будет выражаться следующим образом:

Теперь мы можем рассчитать Оценщик максимального правдоподобия (MLE) θ для каждого из обоих продуктов. Нам нужно найти θ, который максимизирует вероятность L. Нам понадобится дифференцировать функцию правдоподобия относительно θ. Однако мы не можем просто продолжать и делать это. Мы должны принять во внимание ограничение, мы должны использовать множители Лагранжа.

Положив все производные равными 0, мы получаем наиболее естественную оценку:

Поэтому оценки максимального правдоподобия приведены ниже:

На основании этого MLE θ для обеих моделей, чувствуете ли вы уверенность, решая, лучше ли один продукт над другим? Это непросто. Однако мы можем вычислить максимальный уровень правдоподобия (ML) и информационный критерий Акаике (AIC), чтобы ответить на вопрос. Предпочтительной моделью является модель с минимальным значением AIC и максимальным ML, как показано ниже.

Продукт Lotus World, кажется, превосходит Toysmith. Насколько мы не уверены в этом?

Байесовская модель

Подход максимального правдоподобия находит такие значения параметров θ, которые максимизируют вероятность того, что процесс обзора, описанный моделью, дал данные, которые действительно наблюдались.

До вера

Как мы объясняли в нашей предыдущей статье ниже, одним из недостатков MLE является невозможность включить наше предварительное мнение о тех параметрах, которые мы оцениваем.



Предположим, нам говорят, что мнения потребителей на рынке сильно поляризованы.

Большинство обзоров будут иметь 5 звезд или 1 звезду, и очень немногие из них будут находиться на среднем уровне. Априор Дирихле на θ в значительной степени уловил бы этот факт. Распределение Дирихле - это выборка по вероятностному симплексу, совокупности чисел, сумма которых равна 1.

Дирихле моделирует вероятности множественных взаимоисключающих выборов, параметризованных α, который называется параметром концентрации и представляет собой веса для каждого выбора.

Если мы хотим производить неизменно честные обзоры, то α → ∞. Для симметричного распределения Дирихле с α ›1 мы в среднем произведем справедливый обзор. Если целью является создание предвзятых отзывов с более высокой вероятностью 1 и 5 звезд, нам нужно асимметричное распределение Дирихле с более высоким значением для α 1 и α5. Ниже мы предлагаем пример асимметричных альфа-каналов.

Заднее распространение

Байесовский подход можно рассматривать как расширение оценки максимального правдоподобия. Когда у нас есть данные, априорные значения и генеративная модель, мы можем применить теорему Байеса для вычисления апостериорного распределения вероятностей параметров модели при условии наличия данных следующим образом.

Апостериорный максимум (MAP)

Обычно обобщают апостериорное распределение, чтобы найти некоторую центральную тенденцию. Максимальная апостериорная (MAP) или апостериорная мода - это точка с самой высокой апостериорной вероятностью, определяемой по формуле:

Ниже мы реализуем формулу для вычисления MAP для Lotus World и Toysmith. Это дает нам представление о более реалистичной вероятности получения рейтингов в будущем. Например, вероятность того, что клиент поставит Lotus World 5 звезд, составляет скорее 65%, если принять во внимание ранее существовавшее мнение об асимметричных обзорах. Модель MLE дала немного более оптимистичное значение для этой вероятности (67%). Включая предварительное мнение экспертов в предметной области, байесовский подход позволяет только оценки, которые более близки к реальности бизнеса.

Если установить для α значение 1, мы получим оценку максимального правдоподобия для θi.

Апостериорная средняя оценка (PME)

Апостериорная средняя оценка или ожидаемое значение - это среднее значение или мода апостериорного распределения. Для нашей задачи это дается формулой ниже.

Байесовский вывод с PyMC3

До сих пор мы вручную вычисляли апостериорное распределение. Хотя он концептуально прост, этот подход может быть невероятно медленным и ужасно масштабироваться с большим набором данных.

Существуют более быстрые методы, в основном в рамках так называемого семейства алгоритмов цепи Маркова Монте-Карло (MCMC). Ниже мы реализуем MCMC для нахождения апостериорного распределения параметров модели с помощью библиотеки Python PyMC3. Это позволяет нам выбрать 1000-е рейтинговые векторы из апостериорного прогноза для каждого продукта и суммировать апостериорные прогнозные оценки для тета.

Хотя апостериорные средние оценки и максимальные апостериорные оценки очень похожи, обе они сильно отличаются от оценок максимального правдоподобия.

Достоверный интервал

достоверный интервал сообщает нам возможный диапазон значений ненаблюдаемого значения параметра с определенной вероятностью. Не следует путать с доверительным интервалом, который не отражает нашу текущую неопределенность в расположении значений параметров.

Ниже мы используем апостериорное распределение (образцы из него) для вычисления 95% вероятного интервала θ для каждого продукта.

Надежные интервалы для апостериорных средних оценок, приведенные выше, в среднем уже для Toysmith. Мы могли бы добавить больше доверия к отзывам, сделанным о продукте Toysmith.

Какую точечную оценку (MAP, MLE, апостериорную среднюю PME или апостериорную прогнозную оценку) θ вы бы выбрали для ранжирования двух продуктов?

Средний рейтинг не принимает во внимание априорное мнение, такое как смещение оценок в сторону 1 и 5 звезд. Как мы продемонстрировали выше, вероятность того, что заказчик оставит конкретный отзыв, более вероятна при включении предварительных оценок.

В нашем примере мы выбрали бы апостериорную оценку среднего (PME). MLE и MAP похожи, поскольку они вычисляют единственную оценку вместо полного распределения. MLE - это частный случай MAP, где приоритет единообразен! PME или апостериорная прогнозная оценка выводится из апостериорного прогнозного распределения, которое представляет собой распределение возможных параметров. Следовательно, PME предоставит более надежный прогноз, который станет еще более точным с увеличением объема данных.

Вывод

Мы применили байесовский подход для определения воспринимаемого качества двух продуктов на основе оценок потребителей. Код Python был предоставлен для практической демонстрации.

Не стесняйтесь узнать больше о байесовском подходе в моей следующей статье ниже.



Я также рекомендую следующие ресурсы:

Спасибо за чтение. Оставайтесь в безопасности!