OpenAI выпускает InstructGPT, позволяя GPT-3 следовать инструкциям

OpenAI точно настроил GPT-3, используя обучение с подкреплением на основе отзывов людей, чтобы лучше следовать инструкциям, и результаты впечатляют! Новая модель под названием InstructGPT на удивление хорошо понимает намерения пользователей и генерирует эффективные ответы.

Hugging Face интегрирует Stable-Baselines3 с Hugging Face Hub

Hugging Face, популярная благодаря своей библиотеке NLP, берет на себя RL, интегрируя Stable-Baselines3 в свой Hub. Stable Baselines хорошо известен как пакет RL, содержащий PyTorch-реализации широко используемых алгоритмов Deep RL, улучшенные по сравнению с OpenAI’s Baselines. Этот шаг Hugging Face был сделан после того, как они объявили о своей первой среде ML-Agents: Snowball Fight.

Познакомьтесь с Evolution Gym для мягких роботов

Evolution Gym — это первый крупномасштабный бенчмарк по совместной оптимизации дизайна и управления мягкими роботами, что является сложной задачей в области робототехники и управления. Набор тестов включает в себя такие задачи, как ходьба, манипулирование объектами, лазание и передвижение. Evolution Gym был впервые представлен на последней версии NeurIPS, и авторы недавно выложили исходный код реализации в открытый доступ.

Попутный ветер офлайн-рекламы

Интерес к Offline RL продолжается новыми публикациями. Вот некоторые бумаги, на которые стоит обратить внимание:

Количество ресурсов с повышением рейтинга отзывов

По мере роста популярности RL становится доступным все больше и больше ресурсов. Вот краткий кураторский список некоторых последних ресурсов.

Другие недавние публикации, которые могут вас заинтересовать

Заявки на документы

Академические должности

Если вы нашли этот информационный бюллетень полезным, рассмотрите возможность подписки на Medium и LinkedIn, подпишитесь на нас в Twitter и поделитесь им со своей сетью. Если вы заинтересованы в написании статей или у вас есть академические должности, напишите нам по адресу [email protected].