RL на самом деле не является решаемой областью, и в частности есть очень простые проблемы, которые могут ее сломать.

Чтобы обойти текущее ограничение RL, используются различные приемы экспертного уровня. Уловка № 4 в таксономии Джона Лэнгфорда позволяет использовать RL на практике — существенный шаг помимо обучения с учителем, который мы можем регулярно применять так же, как мы можем регулярно применять к обучению с учителем. /эм>

Джон придумал термин контекстные бандиты еще в 2007 году. Крупные облачные провайдеры (Microsoft, Google, AWS) предоставляют услуги, связанные с Vowpal Wabbit — проектом с открытым исходным кодом, посвященным контекстным бандитам.

Оказывается есть особый случай.. если у вас есть просто наблюдение, политика, которая выбирает действие, а затем вы видите вознаграждение, и цель состоит в том, чтобы
максимизировать немедленную сумму вознаграждений, это то, что я бы назвал контекстным бандитом. Это то же самое, что и полное обучение с подкреплением, за исключением того, что вознаграждение напрямую связано с действием в контексте.

В виде функции — это тот же объект, что и классификатор и
контролируемое обучение, но ключевое отличие состоит в том, что действует политика. Если политика делает что-то в мире, что действительно важно для процесса обучения, потому что то, как она действует, повлияет на вознаграждение, которое она заметит, что повлияет на обучение.

Контекстные бандиты полезны для интернет-приложений (рекомендателей), где действие обратной связи доступно немедленно и явно. Проблема со стандартными рекомендателями, обученными SL, заключается в их неспособности обобщать, т. е. в переоснащении (даже после того, как вы купите товар в Интернете, вы все равно будете получать объявления для этого же товара).

Фундаментальное утверждение заключается в том, что вам нужно изучить этот параметр, чтобы
добиться успеха в целом. Так что, может быть, у вас есть политика, в которой говорится, что человек заинтересован в статье о космосе, но если вы немного изучите, иногда вы показываете статью о еде, то, возможно, вы обнаружите, что на самом деле они больше заинтересованы в статье о еде. Этот процесс сбора информации требует определенного исследования.

Традиционное решение этой проблемы – развернуть политику в ходе A/B-тестирования, подождать пару недель и посмотреть, как она работает. Оказывается, можно по-другому. Вы можете использовать эти исторические (автономные) данные для оценки политики.

Это означает, что вместо двух недель на оценку политики мы можем потратить минуту или даже меньше. Мыcвыполняем итерации намного быстрее и пытаемся выяснить, какие функции являются правильными и каково правильное представление.

¹ DeepMind AlphaStar использует имитационное обучение (метод обучения под наблюдением) для преодоления проблемы присвоения кредитов, т. е. для преодоления ситуации (бутстрап), когда RL не может придумать хорошую первоначальнуюстратегию. Затем RL используется для дальнейшего улучшения агента AlphaStar. Цель игры Starcraft 2 — накапливать собственные ресурсы, сражаясь с противоборствующими силами:

Вопрос присваивания кредита в RL действительно очень сложный. Я верю, что мы могли бы работать лучше, и это может стать исследовательской задачей на будущее.

OpenAI Five, бот для Dota2, полностью решает аналогичную проблему с самостоятельной игрой; это стало возможным из-за того, что пространство действия Dota2 намного меньше, а сама игра упрощена и ограничена.