Часть I. Введение в продукты машинного обучения

Этот пост является частью серии, в которой я описываю, что такое продукты на основе машинного обучения, и предлагаю основу для создания этих типов продуктов.

В первом посте я описываю разницу между аналитикой / бизнес-аналитикой, наукой о данных и машинным обучением. Приведем пример продукта на основе машинного обучения. (Часть I)

Затем я делаю обзор шагов, которые должен предпринять специалист по данным при создании продуктов машинного обучения (ML). Этот пост может служить руководством для тех, кто работает с аналитиками данных над созданием продуктов на базе машинного обучения. ("Часть II")

Затем я рассказываю о процессе производства такого продукта. Напоследок я расскажу, как можно протестировать такой продукт. (Часть III)

Я стараюсь представить этот контент максимально доступным способом. Комментарии и вопросы приветствуются.

Что такое продукты на основе машинного обучения?

Примерами этих продуктов могут быть система рекомендаций, поисковая система, модель, указывающая, вероятно ли поведение покупателя, или транзакция является мошеннической.

Ниже я описываю разницу между аналитикой / бизнес-аналитикой, наукой о данных и машинным обучением и представляю реальный пример продуктов на основе машинного обучения.

Аналитика / Бизнес-аналитика

Имеет отношение к сообщению о том, какое поведение обсуждается. Сюда входят такие вопросы, как сколько… или как x изменилось с течением времени. Этот тип работы охватывается математической областью, называемой описательной статистикой.

Вопрос: Сколько людей покупали футболки в полоску и как это изменилось с течением времени?

Ответ: 400 человек сделали сегодня покупки в нашем интернет-магазине футболок, мы наблюдаем 30% -ное увеличение количества приобретенных заказов на футболки в полоску с прошлого месяца.

Data Science

Забота о понимании того, почему что-то проявляет поведение. Это включает в себя понимание того, какие прогностические факторы (причины) заставляют людей проявлять определенное поведение. Этот тип работы направлен на выявление корреляций и причинно-следственных связей.

Вопрос: Какие факторы приводят к совершению дорогостоящих покупок?

Ответ: Когда люди ищут в Google бренды высокого класса, и их запрос содержит термин «купить». Мы видим сильную корреляцию с покупками по более высокой цене.

Машинное обучение

Машинное обучение применяет результаты науки о данных, для изменения поведения в попытке попытаться достичь какой-то цели. .

Пример цели с точки зрения бизнеса может быть.

Как мы можем для (потенциальных) клиентов, которые посещают наш сайт, повысить коэффициент конверсии?

Где Конверсия рассчитывается как. Количество посетителей, которые что-то купили, деленное на общее количество посетителей.

Коэффициент конверсии 0 означает, что каждый, кто посетил ваш сайт, ничего не купил. Коэффициент конверсии 0,5 означает, что половина людей, посетивших ваш сайт, что-то купили. Наконец, коэффициент конверсии 1 означает, что каждый, кто посетил ваш сайт, что-то купил.

Пример сценария:

Представьте, что я пользователь. Я хочу купить полосатую футболку. Итак, я захожу в Google и набираю полосатую футболку. Затем я вижу ссылку на Farfetch для полосатых футболок, нажимаю на нее, и мне открывается следующая страница.

Теперь мы видим, что есть очень футболка. Однако цена этой футболки составляет 555,36 фунтов стерлингов. В данном случае футболка мне очень нравится, но сейчас она вне моего ценового диапазона.

Моим первым побуждением, возможно, было покинуть веб-сайт Farfetch, поскольку у меня, возможно, только что сложилось впечатление, что Farfetch продает только высококачественные дизайнерские футболки, которые не входят в мой ценовой диапазон.

Тем не менее, используя все источники данных, которые есть в распоряжении таких компаний, как Farfetch, через внутренние и сторонние источники данных. Возможно, он поймет, что мне очень нравятся футболки в полоску и что я обычно покупаю футболки в пределах средней ценовой категории.

Возможность профилировать пользователей, чтобы понять, какие решения о покупке они, вероятно, примут, сама по себе является продуктом. Это может быть упаковано как:

Понимание вероятности того, что этот пользователь купит товар, с учетом всего, что мы о нем знаем.

Это само по себе не изменит моего поведения. Однако, если Farfetch сможет профилировать меня и увидеть, что у меня низкая вероятность покупки этого предмета, и у них есть цель повысить коэффициент конверсии, им нужно будет попытаться заставить меня что-то купить, прежде чем я уйду.

Предложения, чтобы попытаться повысить коэффициент конверсии:

Чтобы увеличить вероятность того, что я что-то куплю, а не просто покину сайт. Farfetch предлагает мне другие продукты, которые могут быть мне интересны. В настоящее время Farfetch делает это тремя способами.

Во-первых, недавно просмотренный модуль. Это продукты, которые я недавно просматривал. Теперь, когда я впервые попал на страницу их продукта. Он кажется пустым, так что, вероятно, это пустая трата места, поскольку на данном этапе для меня, впервые посетившего, не представляет никакой ценности.

Во-вторых, они предлагают модуль сопутствующих товаров. Этот модуль показывает мне сопутствующие товары. Теперь я предполагаю, что они связаны на основе дизайнера и других атрибутов футболки, которую я сейчас просматриваю.

И, наконец, в-третьих, они предлагают модуль поиска по теме. Я предполагаю, что это сделано для SEO. Кажется, это комбинация атрибутов (например, цвета, материала, украшения и т. Д.), Дизайнера и категории продукта.

Мне как пользователю больше всего нравится модуль связанных продуктов, потому что он нагляден и позволяет мне быстро видеть похожие вещи. Это продукт, который привлекает меня и позволяет мне оставаться на месте и, возможно, заставить меня что-то купить.

Если бы я должен был что-то купить, перейдя к продукту из модуля связанных продуктов. Тогда, возможно, мы повысим конверсию.

Это дает нам возможность создать продукт на основе машинного обучения.

Модуль дает нам возможность изменить поведение пользователя. В частности, уменьшая вероятность того, что я уйду с сайта (потому что футболка не входит в мой ценовой диапазон), предлагая отличные альтернативные продукты (возможно, другие полосатые футболки в моем ценовом диапазоне) на основе того, что мы знаем о пользователе, с надеждой на повышение конверсии.

Эта часть машинного обучения решает, какие из продуктов (из каталога продуктов) мы должны представить пользователю и в каком порядке мы должны их представлять. Таким образом, чтобы повысить вероятность их преобразования.

Помните, что мы можем знать определенные вещи о пользователе, учитывая доступные нам сторонние данные, мы можем оценить вероятность того, что они купят товар, это также может быть использовано в этом продукте и поможет оптимизировать продукты, которые мы показываем в приведенном выше примере.

Теперь, когда я описал разницу между аналитикой / бизнес-аналитикой, наукой о данных и машинным обучением.

Во части II я опишу процесс с точки зрения специалистов по данным, из того, что входит в создание продукта на основе машинного обучения. На примере модуля сопутствующих товаров.