Данные, несомненно, являются одним из самых ценных активов на Земле. Это явление обычно называют четвертой промышленной революцией, и IDC ожидает, что в этом году доход от анализа больших данных достигнет 274,3 млрд долларов (Business Wire, 2019). Имея опыт работы в сфере моды, диплом по маркетингу в сфере моды и многолетний опыт работы в сфере розничной торговли, мир данных был для меня чужим. Однако с эволюцией потребительства и расширением горизонтов многоканального маркетинга я быстро понял, что те, кто не смог принять растущую роль технологий в розничной торговле, останутся позади.

Итак, я принял это. Сейчас я работаю специалистом по качеству данных в EDITED — платформе рыночной аналитики, которая производит программное обеспечение для анализа данных в реальном времени, предназначенное для брендов и розничных продавцов. Моя роль включает мониторинг точности данных платформы EDITED; точная проверка качества данных в моделях машинного обучения (ML) команды Data Science и сбор новых данных для ввода в обучающие наборы Data Science. Как человеку, который пришел в отрасль с небольшими знаниями, мне сначала было сложно понять концепцию науки о данных и машинного обучения. Однако после двух лет работы в EDITED с командой Data Science я хотел использовать свою уникальную точку зрения, чтобы помочь другим людям с аналогичным, нетехническим образованием получить доступ к машинному обучению и понять его.

В EDITED мы отслеживаем более 1 миллиарда продуктов, помогая клиентам анализировать данные о розничной торговле, чтобы правильно подобрать ассортимент и цену. В рамках этого должна быть всеобъемлющая, взаимоисключающая структура категоризации для продуктов, чтобы клиенты могли легко анализировать продукты (взаимоисключающие означает, что продукты в приложении могут быть отнесены только к одной категории в структуре без дублирования). ). Модели машинного обучения являются основой таксономии в EDITED (таксономия относится к классификации данных по категориям, подкатегориям и т. д.).

Что такое машинное обучение?

Прослушивая подкаст EDITED «EDITED: Inside Retail», специалист по данным Майкл Росс дает представление о распространенном заблуждении о том, что компьютеры с машинным обучением со временем становятся интеллектуальными. Это большое непонимание искусственного интеллекта (ИИ) и машинного обучения, связанное с идеологией, согласно которой МО/ИИ соответствует научной фантастике и роботам. Машинное обучение — это процесс обучения машины (компьютера) изучению шаблонов для разработки методов прогнозирования. Это делается путем ввода большого количества точек данных — чем больше точек данных добавляется, тем больше примеров машина может использовать для обучения. Различные типы моделей машинного обучения включают (но не ограничиваются ими):

  • Контролируемое обучение
  • Полуконтролируемое обучение
  • Неконтролируемое обучение.

Различные типы моделей машинного обучения:

Контролируемое: контролируемое обучение — это процесс обучения модели на размеченных данных, что позволяет модели прогнозировать результат. Точность модели имеет тенденцию к увеличению с увеличением набора обучающих данных.

В EDITED мы используем множество контролируемых моделей, собирая большие объемы размеченных данных, чтобы помочь модели предсказать, где продукт должен располагаться в приложении, например, разница между юбкой и топом или, возможно, рубашкой и блузкой. . По сути, мы учим модель понимать концепции. Если вы хотите, чтобы модель классифицировала разные типы одежды, вам нужно научить ее концепции различных вариантов одежды. Например, что делает платье платьем? Мы делаем это, показывая множество примеров платья, и со временем он начинает узнавать об основных характеристиках того, что делает платье. Это позволит модели идентифицировать платье, которое она никогда раньше не видела.

Другим прекрасным примером модели контролируемого обучения, которую я почерпнул из видео на wired.com, было использование машинного обучения в программе электронной почты. Модели машинного обучения постоянно работают за кулисами вашего почтового ящика, помогая определить, является ли новая почта спамом или нет. Ярлыки (например, спам, входящие и т. д.) используются здесь для обозначения классов. Контролируемая модель обучается на предварительно помеченных электронных письмах и затем может предсказать, какой ярлык следует назначать новым электронным письмам. Конкретным примером может быть то, что вы получаете много испаноязычных электронных писем. Поскольку вы не говорите по-испански, ваши входящие электронные письма не содержат испанский язык. Из контролируемых данных модель узнала, что маловероятно, что вы ожидаете много писем на испанском языке в своем почтовом ящике, поэтому она может поместить их в папку со спамом.

Неконтролируемое: неконтролируемое обучение использует немаркированные данные, то есть модель изучает шаблоны без тегов (кластеризация). Здесь, в EDITED, мы работали над различными проектами обучения без присмотра. Во-первых, у нас была база данных розничных продавцов с большим количеством информации об этих брендах и розничных продавцах, например, сколько продуктов они продают; их средняя цена; участие в рынке и многое другое. Основываясь на всех этих характеристиках, неконтролируемая модель сгруппировала бы эти бренды в три группы. Эти кластеры будут отражать некоторые неотъемлемые общие характеристики брендов в них, например, среднюю цену, максимальную цену, количество аксессуаров. Бизнес-специалисты позже проанализируют кластеры и интерпретируют их, рассматривая отдельные бренды в кластерах и пытаясь найти какое-то значение, стоящее за их группировкой. Вы можете видеть на диаграмме примера, мы обнаружили корреляцию между группами ритейлеров на основе их рыночного уровня, например: стоимость, масса, премиум и роскошь.

Неконтролируемое обучение также можно использовать в анализе рынка, замечая схожие модели поведения клиентов в Интернете. Например, знание того, какая реклама может привлечь клиента, на основе моделей поведения, таких как их решения о прокрутке и нажатии, или взаимодействие с рекламой в социальных сетях определенного бренда одежды. Другой пример — TikTok; Контент каждого человека на их домашней странице выглядит по-разному, поскольку алгоритм выбирает видео, которые, по его мнению, пользователь хотел бы увидеть, основываясь на том, с чем он ранее взаимодействовал.

Полууправляемое обучение. Полууправляемое обучение — это просто сочетание контролируемого и неконтролируемого обучения. Он использует небольшой объем размеченных данных и большой объем неразмеченных данных. Например, в EDITED, если мы не смогли собрать достаточно обучающих данных для полностью контролируемой модели категоризации, мы могли бы дать ей небольшое количество помеченных обучающих данных для начала, а затем оставить ее для создания собственных обучающих данных на основе этого небольшого подмножества. .

Это всего лишь краткое введение в машинное обучение. Я так многому научился за время работы в EDITED, но мне еще многое предстоит узнать о мире машинного обучения. Как человек, не связанный с технической модой, я советую всем, кто начинает работать в аналогичной должности, — задавать вопросы, оставаться открытыми для новых возможностей (поскольку технологии могут постоянно меняться) и максимально использовать ресурсы вокруг. ты! Работая вместе с учеными данных и людьми с таким большим багажом знаний, для меня никогда не было лучшего времени, чтобы учиться и развивать навыки, о которых я никогда не думал.

Дополнительные ресурсы:

Видео на Wired.com под названием Ученый-компьютерщик объясняет машинное обучение на 5 уровнях сложности — полезный источник, помогающий понять машинное обучение. Ресурс предлагает разные уровни сложности, предлагая несколько определений ML при разговоре с ребенком, подростком, студентом колледжа, аспирантом и экспертом по науке о данных. Как человеку, вышедшему из нетехнической сферы, было полезно услышать различные объяснения машинного обучения, поэтому я вижу, что это полезно для всех, кто хочет заняться наукой о данных.

Ссылка:

EDITED, 2022. Tech Talks: Что означает ИИ для розничной торговли и электронной коммерции? [подкаст] EDITED: Inside Retail. Доступно по адресу: https://podcasts.apple.com/gb/podcast/tech-talks-what-does-ai-mean-for-retail-ecommerce/id1482242510?i=1000553280697 [По состоянию на 6 мая 2022 г.].

Наст, К. (nd). Ученый-компьютерщик объясняет машинное обучение на 5 уровнях сложности. [онлайн] Проводной. Доступно по адресу: https://www.wired.com/video/watch/5-levels-machine-learning.

www.businesswire.com. (2019). IDC прогнозирует, что выручка от решений для больших данных и бизнес-аналитики в этом году достигнет 189,1 миллиарда долларов, а ежегодный рост будет выражаться двузначным числом до 2022 года. IDC-Прогнозы-Доходы-для-больших-данных-и-бизнес-аналитики-решений-будут-достигать-189,1-млрд-в-этом-году-с-двузначным-годовым-ростом-до-2022».