Введение в многорукий бандит

В теории вероятностей проблема многорукого бандита (иногда называемая N проблемой бандита) - это проблема, в которой фиксированный ограниченный набор ресурсов должно быть распределено между конкурирующими (альтернативными) вариантами выбора таким образом, чтобы максимизировать их ожидаемую выгоду, когда свойства каждого выбора известны лишь частично во время распределения и могут стать лучше понятыми по прошествии времени или путем распределения ресурсов для выбора.

Название происходит от представления игрока за рядом игровых автоматов (иногда называемых «однорукими бандитами»), который должен решить, на каких автоматах играть, сколько раз играть на каждом автомате и в каком порядке играть на них, и продолжить ли с текущей машины или попробовать другую машину.

Проблема многорукого бандита также попадает в широкую категорию стохастического планирования (классический пример обучения с подкреплением).

Мотивация

Проблема многорукого бандита моделирует агента, который одновременно пытается получить новые знания (так называемые «исследования») и оптимизировать свои решения на основе существующих знаний (так называемые «эксплуатация»). Агент пытается сбалансировать эти конкурирующие задачи, чтобы максимизировать их общую ценность за рассматриваемый период времени. Есть много практических применений модели бандита.

В чем заключается компромисс между исследованием и использованием?

Компромисс между разведкой и эксплуатацией - это дилемма, с которой мы часто сталкиваемся, выбирая один из вариантов. Следует ли вам выбрать то, что вы знаете, и получить что-то близкое к тому, что вы ожидаете («использовать»), или выбрать то, в чем вы не уверены и, возможно, узнать больше («изучить»)? В повседневной жизни это происходит постоянно - любимый ресторан или новый ?; текущая работа или охота ?; домой нормальный маршрут или попробовать другой ?; и многое другое. Вы жертвуете одним ради другого - это компромисс. Что из этого вам следует выбрать, зависит от того, насколько дорого обходится информация о последствиях, как долго вы сможете воспользоваться ею и насколько велика выгода для вас.

В следующий раз :)

В следующий раз я покажу вам пример многорукого бандита, который является предвзятым. Я собираюсь привести полный пример этого бандита на Python, и мы создадим систему, которая оптимизирует CTR.

До следующего раза не забывай хлопать в ладоши :)

Введение в многорукий бандит

Мотивация

В чем заключается компромисс между исследованием и использованием?

В следующий раз :)

Вопросы по теме