Виртуализация крупнейшего в Китае онлайн-рынка для обучения с подкреплением

Эта статья является частью серии Academic Alibaba и взята из статьи под названием Virtual-Taobao: виртуализация реальной среды онлайн-торговли для обучения с подкреплением. авторы Цзин-Чэн Ши, Ян Ю, Цин Да, Ши-Юн Чен и Ань-Сян Цзэн. Полностью статью можно прочитать здесь.

Методы обучения с подкреплением предлагают огромный потенциал для сложных пользовательских сред, но их трудно применять во многих реальных условиях, поскольку они требуют обучения в реальной системе. Это может поставить под угрозу функциональность системы или пользовательский опыт, поставив на карту деньги, время и — в случае больничных сетей — даже жизнь и благополучие людей.

В то время как такие области, как игры, робототехника и обработка естественного языка, были относительно восприимчивы к неконтролируемым подходам, крупные онлайн-системы ограничивались контролируемыми подходами. Контролируемое машинное обучение представляет меньший непосредственный риск для системы, но не способно научиться последовательному принятию решений, необходимых для максимизации долгосрочных выгод.

Это была дилемма, с которой столкнулась Alibaba, пытаясь использовать машинное обучение для улучшения функции поиска товаров своей платформы электронной коммерции Taobao. Их решение состояло в том, чтобы смоделировать среду тестирования реальной системы, создав «Виртуальный таобао» — аналогичную копию платформы с виртуальными пользователями, созданными на основе реальных исторических данных. На данный момент результаты показали, что симуляция может значительно лучше обучать политики поисковых систем, чем ранее использовавшиеся подходы к контролируемому обучению, в то время как реальный Taobao защищен от неблагоприятных последствий обучения.

Идея использования симуляций для обеспечения реалистичной, но безопасной среды обучения для обучения с подкреплением не совсем нова. Google, например, применил этот подход для охлаждения своих центров обработки данных, используя нейронные сети, которые аппроксимировали динамику реальной системы.

Как и системы охлаждения Google, Taobao не может позволить себе непредсказуемое живое тестирование даже на короткое время. Во время обычной работы поисковая система Taobao имеет дело с миллисекундными ответами на миллиарды товаров, сортируя потенциальные результаты для создания просмотра страницы (PV), чтобы показать покупателю. Затем последующее поведение клиента обеспечивает сигнал обратной связи, например, совершение покупки, переход на следующую страницу или уход с сайта. На основе результатов, сгенерированных данным PV, поисковая система обновит свою политику принятия решений для этого сценария, способствуя общему развитию стратегии системы для отображения PV.

Вместо того, чтобы рисковать, влияя на опыт покупок на Taobao, Alibaba применила две адаптированные модели моделирования и реальные исторические данные Taobao, чтобы создать параллельную платформу, очень похожую на оригинал. Разработчики сначала адаптировали специальную генеративно-состязательную сеть (GAN), чтобы различать реальные и смоделированные входные данные о поведении клиентов. Получившаяся в результате генеративно-состязательная сеть для имитации распространения (GAN-SD) позволила им предоставить поисковым системам более реалистичный набор смоделированных поисков и результатов ответов, чем это было бы возможно обычно.

Настроив желаемое распределение клиентов, команда затем использовала механизм многоагентного состязательного обучения (MAIL) для обучения смоделированных политик клиентов и политик движка друг против друга в рамках игры с нулевой суммой, гарантируя, что политика клиента будет обобщаемой. для разных политик двигателя.

С введением инструментов моделирования GAN-SD и MAIL Alibaba смогла имитировать спонтанность действий Taobao в реальном времени, сознательно обучая свои механизмы работать лучше в таких сценариях. Основываясь на эмпирических измерениях общего оборота, общего объема и уровня покупок на странице, обучение с подкреплением на Virtual Taobao продемонстрировало улучшение стратегии на 3% по сравнению с традиционными контролируемыми методами обучения с лучшей способностью к обобщению с течением времени, чем подходы к моделированию, основанные на клонировании только поведения. .

Эти результаты показывают, что моделирование может быть полезным средством применения обучения с подкреплением в других ситуациях, когда сложные физические среды традиционно запрещали прямое применение.

Полностью статью можно прочитать здесь.

Алибаба Тех

Подробная информация из первых рук о новейших технологиях Alibaba → Найдите «Alibaba Tech» на Facebook.

Виртуализация крупнейшего в Китае онлайн-рынка для обучения с подкреплением

Алибаба Тех

Вопросы по теме