Эта статья является частью серии Academic Alibaba и взята из статьи Изучение и передача представления идентификаторов в электронной коммерции Куй Чжао, Юэчуань Ли, Чжаоцянь Шуай и Cheng Yang, принято KDD 2018. Полную версию статьи можно прочитать здесь.

В электронной коммерции было разработано множество методов машинного интеллекта, одна из самых важных из которых - представление идентификаторов. Здесь идентификаторы относятся к множеству различных субъектов и объектов в экосистеме электронной коммерции. Возможность должным образом анализировать связи между идентификаторами пользователей, идентификаторами товаров, идентификаторами продуктов, идентификаторами магазинов, идентификаторами брендов, идентификаторами категорий и т. Д. - это то, что может дать огромное потенциальное представление о поведении клиентов и отраслевых тенденциях, что позволит улучшить маркетинг и показатели рекламы, операций и удержания клиентов.

Однако существующие методы, основанные на кодировании идентификаторов, неэффективны, поскольку они страдают проблемами разреженности из-за больших размеров, и они не могут отражать отношения между идентификаторами, как однородными, так и разнородными. Для борьбы с этим техническая группа Alibaba предлагает фреймворк на основе встраивания для изучения и передачи представления идентификаторов.

Большие данные, большие проблемы

Электронная коммерция стала важной частью нашей повседневной жизни с увеличением количества покупок в Интернете. Однако бизнес-среда электронной коммерции намного более динамична и сложна, чем традиционная коммерция, и во многих отношениях все еще не полностью изучена. Благодаря большому количеству данных о деятельности электронной коммерции, машинное обучение предлагает эффективный способ анализа и понимания электронной коммерции; однако идентификаторы являются ключевым аспектом этой золотой жилы, которая в настоящее время плохо представлена ​​в методах машинного обучения.

Текущие методы представления ID имеют два основных ограничения. Во-первых, они страдают от проблем с нехваткой данных из-за огромного и постоянно растущего количества данных. Количество образцов, необходимых для создания статистических моделей, увеличивается экспоненциально по мере увеличения количества идентификаторов. Во-вторых, они не могут отражать отношения между идентификаторами, как однородными, так и разнородными.

Используя текущий метод, если взять два разных идентификатора элемента (однородный пример), они будут иметь постоянное расстояние независимо от того, похожи они или нет. Между тем, взаимосвязь между идентификатором товара и идентификатором магазина (неоднородный пример) невозможно даже измерить, поскольку они находятся в разных местах.

Объединение идентификаторов

Команда Alibaba совершенствует эти текущие методы, используя фреймворк на основе встраивания для изучения и передачи представлений для всех типов идентификаторов. Они также рассматривают структурные связи между идентификатором элемента и другими типами идентификаторов (как показано выше). Через эти соединения информация, указанная в последовательностях идентификаторов элементов, может распространяться на другие типы идентификаторов, и представления всех типов идентификаторов могут быть изучены одновременно.

В предлагаемой ими структуре все типы идентификаторов встроены в одно пространство, где можно легко измерить отношения между идентификаторами - как однородными, так и разнородными. Это делает более удобным использование и контроль этих данных в реальных сценариях и во многих приложениях.

Проблема холодных запусков неизбежна с новыми элементами, то есть идентификаторы элементов без исторических записей невидимы для систем рекомендаций. Чтобы облегчить это, для новых идентификаторов элементов конструируются приблизительные векторы внедрения путем передачи векторов внедрения увиденных идентификаторов. Еще больше усложняет дело то, что большая часть пользователей - новые клиенты, что делает персональные рекомендации особенно сложными. Используя метод команды, векторы внедрения идентификаторов пользователей создаются путем агрегирования векторов внедрения идентификаторов элементов. Это означает, что эти векторы могут быть перенесены с давно существующих платформ, таких как Taobao от Alibaba, на новые платформы для предоставления эффективных персонализированных рекомендаций новым пользователям.

Команда уже планирует усовершенствовать свой подход и распространить его на многие другие приложения, такие как поисковые системы и рекламные объявления.

Полную версию статьи можно прочитать здесь.

Alibaba Tech

Подробная информация о последних технологиях Alibaba из первых рук → Facebook: Alibaba Tech. Twitter: « AlibabaTech ».