Еженедельный обзор статей по обучению с подкреплением №7

[← Предыдущий отзыв] [Следующий отзыв →]

Документ 1: Пробел в обучении между нейробиологией и обучением с подкреплением

Вотье, С. Т., Маццалья, П., Чатал, О., Де Бум, К., Вербелен, Т., и Додт, Б. (2021). Разрыв в обучении между нейробиологией и обучением с подкреплением. Препринт arXiv arXiv: 2104.10995.

Вот две возможные конфигурации. Награда представлена красным кружком. В первой конфигурации награда находится слева, во второй - справа.

В исходном положении агент не может различать две конфигурации. Итак, подсказка была добавлена: круг за окном, синий, если награда слева, и зеленый, если награда справа. Последняя деталь: агенту не разрешается исследовать обе ветви буквы T. После того, как он вошел в одну, он не сможет вернуться на свои места. Довольно просто, не правда ли? Как вы думаете, за сколько итераций DQN или PPO решат эту задачу? Сделайте ставку.

Вот удивительно плохие результаты: в лучшем случае вероятность успеха для DQN / Rainbow, PPO и DreamerV2 составляет 50%. Агент никогда не сможет сделать лучше, чем это. 50% означает, что агент, похоже, изучил две позиции, на которых появляются награды, но, похоже, не может предсказать, будет ли награда слева или справа (хотя нижний цветной кружок дает ему эту информацию. ). Агент, похоже, не связывает цвет круга с подсказкой и положение награды. Можно утверждать, что наблюдение является частичным и что для решения задачи необходим механизм памяти. DreamerV2 имеет механизм памяти, и вероятность успеха по-прежнему составляет 50%.

Должен признаться, что меня удивили эти результаты, но я думаю, что они показывают предвзятость многих работ RL. Текущие тесты слишком строгие и используют множество уловок, чтобы заставить процесс обучения работать. Эти уловки, хотя и критичные, часто даже не упоминаются в газетах. Один из способов, предложенных авторами, - это снова приблизиться к нейробиологии. Мне нравится их вывод.

Документ 2: Обучение и планирование в комплексных пространствах действий

Хуберт, Т., Шриттвизер, Дж., Антоноглу, И., Барекатайн, М., Шмитт, С., и Сильвер, Д. (2021). Обучение и планирование в комплексных пространствах действий. Препринт arXiv arXiv: 2104.06303.

Пространства действий могут быть конечными дискретными, бесконечными дискретными, непрерывными или даже многомерными непрерывными. Чем сложнее пространство действий, тем труднее правильно оценивать политику. Просто перечислить все возможные действия может быть невозможно. В этой статье авторы предлагают довольно естественную идею: сосредоточить внимание на действиях, которые имеют наибольшую вероятность совершения. Как оценить эту вероятность возникновения? В этом нет необходимости, вам просто нужно пробовать. И именно эта выборка лежит в основе вопроса, отсюда и название, которое они дали своей структуре: Sampled MuZero (они использовали MuZero, но их метод должен работать со всеми методами, основанными на итерации политики).
Итак, мы больше не рассуждать обо всем пространстве действий, а только о сокращенном подмножестве действий. Тогда возникает вопрос: сколько действий необходимо выполнить, чтобы обучение работало правильно? Очевидно, что чем больше действий будет выбрано, тем лучше будет обучение, но тем важнее будет больше времени вычислений: это компромисс. Чтобы проиллюстрировать этот компромисс, авторы применили свой метод к игре Го: 362 возможных действия. Да, размер области действия очень разумный, но он позволяет им сравнивать с теоретическим максимумом, заключающимся в наличии доступа ко всему пространству действия. Поэтому они сравнивают кривые обучения, выбирая 15, 25, 50 и 100 действий. Вот результаты:

Мы видим, что при выборке 50 действий (менее 15% возможных действий) кривая обучения очень близка к кривой, соответствующей доступу ко всем действиям.
Подобные результаты были получены для непрерывных пространств действий (DeepMind Control Suite , Real-WorldRL Suite). Это интересный прием, позволяющий значительно сократить время вычислений.

Документ 3: Модульная библиотека для обучения с подкреплением на основе моделей

Пинеда, Л., Амос, Б., Чжан, А., Ламберт, Н. О., и Каландра, Р. (2021). MBRL-Lib: Модульная библиотека для обучения с подкреплением на основе моделей. Препринт arXiv arXiv: 2104.10159.

Основанная на моделях структура обучения с подкреплением больше не нуждается в проверке. Когда стоимость взаимодействия с окружающей средой высока, RL на основе моделей остается методом, который дает наилучшие результаты. Тем не менее, реализация происходит не так быстро, как для безмодельных методов. Авторы предлагают библиотеку, которую они называют MBRL-Lib. Это библиотека машинного обучения для обучения с подкреплением, основанная на моделях в непрерывных пространствах состояние-действие (мы можем сожалеть, что не можем использовать дискретные пространства). Библиотека использует PyTorch.

Если честно, пока не пользовался, но код просматривал. По-прежнему существует не так много примеров кода для обучения на основе моделей. Пока есть МБПО и ПЭТС, вот и все. Я предполагаю, что цель состоит в том, чтобы участники пополнили свою библиотеку. Я с нетерпением жду возможности увидеть, соблазнит ли эта инициатива RL-сообщество, основанное на моделях. Версия 0.1.0 была выпущена менее двух недель назад, так что следите за ней. Вот и репо.

Документ 4: Развитие алгоритмов обучения с подкреплением

Ко-Рейес, Дж. Д., Мяо, Ю., Пэн, Д., Реал, Э., Левин, С., Ле, К. В.,… и Фауст, А. (2021). Развитие алгоритмов обучения с подкреплением. Препринт arXiv arXiv: 2101.03958.

Мета-обучение - это учиться учиться. Это целая ветвь машинного обучения с некоторыми пересечениями с принципом подкрепления. Вот один из них.
Отправной точкой является то, что все алгоритмы обучения с подкреплением можно представить в виде графика. Вот пример для DQN:

Начнем с набора алгоритмов, случайных или взятых из литературы. Эти алгоритмы сначала должны хорошо работать в так называемой «барьерной» среде, прежде чем им будет разрешено обучаться в более сложных средах. Если алгоритм не справляется с препятствием, он устраняется. Остальные используются для обновления популяции алгоритмов, которые время от времени видоизменяются. В конце обучения наиболее эффективный алгоритм оценивается в тестовых средах, отличных от всех сред, в которых он уже обучался.

Удивительный результат: обучаясь с нуля (без какого-либо современного алгоритма) на простых классических задачах управления и gridworld, этот метод заново открыл алгоритм разницы во времени (TD)!

Я с большим удовольствием представил вам свои чтения за неделю. Не стесняйтесь присылать мне свой отзыв.

Еженедельный обзор статей по обучению с подкреплением №7

Документ 1: Пробел в обучении между нейробиологией и обучением с подкреплением

Документ 2: Обучение и планирование в комплексных пространствах действий

Документ 3: Модульная библиотека для обучения с подкреплением на основе моделей

Документ 4: Развитие алгоритмов обучения с подкреплением

Вопросы по теме