Обзор для новичков в обучении с подкреплением

Reinforcement Learning — удивительная область, она дает ощущение волшебства. Тем не менее, это непростая тема для изучения, она тяжелая, она разочаровывает, особенно новичков.

RL-Lab.com поставила перед собой задачу облегчить людям практику и изучение этой техники. Есть масса статей и видео, в которых рассказывается об этом, но они все равно не дают того непосредственного ощущения, которое возникает, когда ты пробуешь своими руками и видишь результат.

Вопрос «что произойдет, если я сделаю то или это» по-прежнему недосягаем для многих из предлагаемых решений.

RL-Lab.com хочет изменить это, предоставив простой интерфейс для взаимодействия с каждым опытом обучения с подкреплением. Вот почему мы выбрали опыт GridWorld в качестве отправной точки (другие последуют за ним), потому что он прост и интуитивно понятен.

Пользователи, которые видят пример GridWorld, инстинктивно захотят создать свой сценарий, размещая трофеи, ловушки, препятствия, барьеры в местах по своему выбору и наблюдая, как отреагирует агент. Они очень хотели бы попытаться взломать агента.

Это важный шаг обучения, который состоит в том, чтобы видеть, практиковать, пробовать странные вещи…

Когда пользователи пробуют свои (странные) сценарии, им становится все больше и больше любопытно, как все работает, и именно тогда они стремятся повторить то же самое, используя свой код.

RL-Lab.com предлагает эту возможность, предоставляя пользователям редактор прямо на той же странице, без необходимости скачивания, установки, настройки,… функции. Он напрямую связан с важными вещами.
Пользователям придется реализовать сам алгоритм, обычно разделенный на несколько частей или методов. Таким образом, даже если им не нравится весь алгоритм, они могут реализовать некоторые его части, а другие части оставить в реализации по умолчанию.

Обычно редактор содержит инструкции о том, как действовать и как реализовать некоторые или полный набор методов (путем установки таких переменных, как «useMethodComputeReturnOfEpisode», «useMethodImproveAndUpdatePolicy» и т. д.).
Затем каждый метод имеет комментарии. которые дают указания о том, как писать код.
Конечно, необходимы некоторые знания в javascript, потому что код будет работать в браузере. Но поскольку javascript — это хорошо известный язык, и уровень владения этим языком не обязательно должен быть высоким, чтобы выполнить задачу, попробовать его не должно быть проблемой ни для кого.

Это сказано, теперь ваша очередь реализовать эти алгоритмы самостоятельно:

Не забывайте, что когда вы делаете что-то интересное и полезное, пусть это приносит пользу сообществу. Вы можете поделиться своим сценарием и кодом, чтобы другие могли извлечь выгоду из приобретенного вами опыта. Проверьте эту страницу для получения дополнительной информации.

Статьи по Теме