Даже если вы лишь эпизодически следите за темой ИИ и методами машинного обучения, я почти уверен, что вы встречали термин обучение с подкреплением. Это один из многих методов машинного обучения, но это единственный метод, который учится на положительных и отрицательных примерах — он в основном описывает метод, который создает модель для машины, чтобы обеспечить хороший результат на основе того, чему она научилась на положительных и отрицательных примерах. Примеры. Отличным примером обучения с подкреплением является модель, созданная DeepMind, которая обучалась со временем и без каких-либо предварительных знаний, кроме знания того, что целью было увеличить счет в классической видеоигре Atari, Breakout, а также научиться играть в нее. В этой видеоигре вы должны перемещать ракетку, чтобы управлять мячом, который, когда он попадает в плитку, разрушает эту плитку и награждает игрока очками.

Что такое вознаграждение с точки зрения обучения с подкреплением? Ответ: какая модель построена для оптимизации — так в случае с Atari Breakout получение большего количества очков во время игры.

Возможно, вы думаете, что это легко. Вам просто нужно научиться управлять мячом с помощью весла. К сожалению, это немного сложнее. Во-первых, методом проб и ошибок модель должна научиться управлять веслом; затем, со временем и при перемещении ракетки, мяч случайно ударит по ракетке, что позволит модели узнать, что удар мяча по ракетке иногда полезен (но не всегда, поскольку мяч может ударить по ракетке, но не напрямую). ударить плитку, что НЕ приводит к мгновенным наградам). Затем, в зависимости от положения мяча, он должен научиться предсказывать, куда двигать ракетку, чтобы получать вознаграждение чаще, и так далее и тому подобное.

Сложность еще и в том, что вознаграждение не всегда следует сразу за действием. Чтобы получить награду, может потребоваться 10 секунд или 15 действий (поскольку мяч не всегда попадает в плитку, даже когда он касается ракетки), поэтому модель должна быть достаточно надежной, чтобы иметь возможность разработать некоторое представление о стратегии. Это приводит нас к самой сложной проблеме, когда дело доходит до решения большинства задач машинного обучения: для обучения с подкреплением требуется много тренировок — несколько тысяч игр, чтобы научиться играть в Breakout. И эти знания нельзя перенести в подобные игры, вроде Pong, еще одной древней классики. Каждая игра должна быть изучена полностью с нуля.

Если вы думаете об этом в нашей области маркетинговых информационных систем, существует множество вариантов использования, когда система (которая оптимизируется на основе вознаграждения и приводит к рекомендациям) очень желательна. Например, возьмем систему, которая рекомендует, какие преимущества продукта следует продвигать, чтобы оптимизировать продажи целевой группе потребителей. Представьте, что у вас есть определенный набор критериев, на которых вы хотите сосредоточиться в своей кампании: цена, ингредиенты, упаковка, имидж бренда и т. д. Теперь представьте модель, которая поможет вам выбрать правильные критерии: на основе всех имеющихся у вас исследований и все успешные и неудачные концептуальные тесты, которые когда-либо проводила ваша маркетинговая команда, чтобы порекомендовать наиболее верный путь.

По сравнению с игрой Atari есть одно существенное отличие: скорее всего мало обучающих примеров, и, к сожалению, также нет симулятора (вроде «игры в маркетинг»), который заставляет это работать с обучением с подкреплением без добавления специального метода вроде переноса. обучение. Крайне важно дать машине возможность перенести то, чему она научилась в одной бизнес-ситуации, в другую — это, по сути, то, что мы, люди, называем «опытом».

В Market Logic мы в настоящее время работаем именно над этим — позволить нашему ассистенту по маркетингу научиться делать такие решения-прогнозы на основе реальных отзывов от бизнеса, а затем иметь возможность переносить такие изученные модели из одной «ситуации» в другую. для предоставления более качественных и быстрых рекомендаций.

Первоначально опубликовано в блоге Market Logic.