Исследователи хотели бы, чтобы вы внесли свой вклад в эту платформу или использовали ее для своих исследований.

Платформа PyTorch для распределенного RL

Благодаря достижениям в области глубокого обучения и аппаратного обеспечения графического процессора, обучение с подкреплением достигло множества подвигов, включая способность агентов изучать политики и решать сложные задачи. Неудивительно, что он вызвал большой интерес.

Однако, по мнению ученых, не хватает хорошо написанных, высокопроизводительных, масштабируемых реализаций распределенных архитектур RL, которые препятствовали воспроизведению большего количества опубликованных работ. Мало того, новые разработки доступны только нескольким организациям, обладающим необходимыми ноу-хау.

Такой подход, как обучение с подкреплением без моделей, построенный на основе агента IMPALA, получил широкое распространение в таких областях, как StarCraft II или шутеры от первого лица. И хотя реализация агента IMPALA, построенного на TensorFlow, была выпущена как программное обеспечение с открытым исходным кодом, исследователи, предпочитающие PyTorch, имеют меньше возможностей.

Простая платформа PyTorch с открытым исходным кодом для распределенного RL

В этой статье исследователи Facebook AI, Оксфордского университета, Имперского колледжа и Университетского колледжа в Лондоне описывают принципы проектирования и реализации TorchBeast. Torch beast - это платформа для исследования RL, которая реализует популярный агент IMPALA и поставляется в двух вариантах: MonoBeast и PolyBeast.

MonoBeast требует только Python и PyTorch. PolyBeast, с другой стороны, является высокопроизводительной версией для нескольких машин. Поэтому его сложнее установить, но он эффективен, поскольку позволяет тренироваться на разных машинах. Основная цель варианта MonoBeast - упростить работу с PolyBeast и начать ее работу.

Почему это важно?

«Мы считаем, что TorchBeast обеспечивает многообещающую основу для исследований обучения с подкреплением без жесткости статических структур или сложных библиотек», - говорят исследователи.

TorchBeast помогает уравнять правила игры, будучи простой и читаемой реализацией IMPALA на PyTorch, разработанной с нуля, чтобы быть простым в использовании, масштабируемым и быстрым.

Обе версии используют несколько процессов для обхода технических ограничений многопоточных программ Python. Суть в том, что они позволяют исследователям проводить масштабируемые исследования RL без каких-либо знаний в области программирования, кроме Python и PyTorch.

У них есть TorchBeast с открытым исходным кодом, и они хотели бы, чтобы вы помогли или использовали его для своих исследований. Заинтересованы? TorchBeast выпущен под лицензией Apache 2.0, доступ к нему здесь.

Прочтите полный текст статьи: Платформа PyTorch для распределенного RL

Спасибо за чтение, прокомментируйте и поделитесь. Чтобы получать обновления самых последних и интересных научных статей, подпишитесь на нашу еженедельную рассылку. Вы также можете связаться со мной в Twitter, LinkedIn и Facebook. Не забудьте 👏, если вам понравилась эта статья. Ваше здоровье!

Исследователи хотели бы, чтобы вы внесли свой вклад в эту платформу или использовали ее для своих исследований.