# 5: GPT-3 становится лучше с RL, Hugging Face и Stable-baselines3, Meet Evolution Gym, Offline RL…

OpenAI выпускает InstructGPT, позволяя GPT-3 следовать инструкциям

OpenAI точно настроил GPT-3, используя обучение с подкреплением на основе отзывов людей, чтобы лучше следовать инструкциям, и результаты впечатляют! Новая модель под названием InstructGPT на удивление хорошо понимает намерения пользователей и генерирует эффективные ответы.

Hugging Face интегрирует Stable-Baselines3 с Hugging Face Hub

Hugging Face, популярная благодаря своей библиотеке NLP, берет на себя RL, интегрируя Stable-Baselines3 в свой Hub. Stable Baselines хорошо известен как пакет RL, содержащий PyTorch-реализации широко используемых алгоритмов Deep RL, улучшенные по сравнению с OpenAI’s Baselines. Этот шаг Hugging Face был сделан после того, как они объявили о своей первой среде ML-Agents: Snowball Fight.

Познакомьтесь с Evolution Gym для мягких роботов

Evolution Gym — это первый крупномасштабный бенчмарк по совместной оптимизации дизайна и управления мягкими роботами, что является сложной задачей в области робототехники и управления. Набор тестов включает в себя такие задачи, как ходьба, манипулирование объектами, лазание и передвижение. Evolution Gym был впервые представлен на последней версии NeurIPS, и авторы недавно выложили исходный код реализации в открытый доступ.

Попутный ветер офлайн-рекламы

Интерес к Offline RL продолжается новыми публикациями. Вот некоторые бумаги, на которые стоит обратить внимание:

Количество ресурсов с повышением рейтинга отзывов

По мере роста популярности RL становится доступным все больше и больше ресурсов. Вот краткий кураторский список некоторых последних ресурсов.

Другие недавние публикации, которые могут вас заинтересовать

Заявки на документы

Академические должности

Постдок/к.т.н. в Глубоком RL и социальных дилеммах в «Метавселенной, Междисциплинарный центр, Герцлия (Университет Рейхмана), Израиль, профессор Дорон Фридман»
2 к.т.н. позиции в обучении с подкреплением в Дармштадтском техническом университете с интеллектуальными автономными системами профессора Яна Петерса
Научный сотрудник в области эпистемического искусственного интеллекта

Если вы нашли этот информационный бюллетень полезным, рассмотрите возможность подписки на Medium и LinkedIn, подпишитесь на нас в Twitter и поделитесь им со своей сетью. Если вы заинтересованы в написании статей или у вас есть академические должности, напишите нам по адресу [email protected].

# 5: GPT-3 становится лучше с RL, Hugging Face и Stable-baselines3, Meet Evolution Gym, Offline RL…

Вопросы по теме