OpenAI выпускает InstructGPT, позволяя GPT-3 следовать инструкциям
OpenAI точно настроил GPT-3, используя обучение с подкреплением на основе отзывов людей, чтобы лучше следовать инструкциям, и результаты впечатляют! Новая модель под названием InstructGPT на удивление хорошо понимает намерения пользователей и генерирует эффективные ответы.
Hugging Face интегрирует Stable-Baselines3 с Hugging Face Hub
Hugging Face, популярная благодаря своей библиотеке NLP, берет на себя RL, интегрируя Stable-Baselines3 в свой Hub. Stable Baselines хорошо известен как пакет RL, содержащий PyTorch-реализации широко используемых алгоритмов Deep RL, улучшенные по сравнению с OpenAI’s Baselines. Этот шаг Hugging Face был сделан после того, как они объявили о своей первой среде ML-Agents: Snowball Fight.
Познакомьтесь с Evolution Gym для мягких роботов
Evolution Gym — это первый крупномасштабный бенчмарк по совместной оптимизации дизайна и управления мягкими роботами, что является сложной задачей в области робототехники и управления. Набор тестов включает в себя такие задачи, как ходьба, манипулирование объектами, лазание и передвижение. Evolution Gym был впервые представлен на последней версии NeurIPS, и авторы недавно выложили исходный код реализации в открытый доступ.
Попутный ветер офлайн-рекламы
Интерес к Offline RL продолжается новыми публикациями. Вот некоторые бумаги, на которые стоит обратить внимание:
- Проблемы изучения офлайн-обучения с подкреплением
- Может ли Википедия помочь в автономном обучении с подкреплением?
- Должен ли я проводить автономное обучение с подкреплением или поведенческое клонирование?
Количество ресурсов с повышением рейтинга отзывов
По мере роста популярности RL становится доступным все больше и больше ресурсов. Вот краткий кураторский список некоторых последних ресурсов.
- Курс повышения квалификации в Грузии
- Основы обучения с подкреплением от Института Саймонса и Дилана Фостера из Microsoft
- Серия «Обучение с подкреплением Стива Брантона»
- Подкаст TalkRL, эпизод 16 с римским кольцом DeepMind
- Контрфакты для обучения с подкреплением
- Практическая серия блогов по RL
Другие недавние публикации, которые могут вас заинтересовать
- Автоматизированное обучение с подкреплением (AutoRL): обзор и открытые проблемы
- Поиск общего равновесия в многоагентном экономическом моделировании с использованием глубокого обучения с подкреплением
- Оффлайн-онлайн-обучение с подкреплением с помощью сбалансированного воспроизведения и пессимистического Q-ансамбля
- Примерное обучение с подкреплением для управления перегрузкой маяков в распределенных сетях
- Методы обучения с подкреплением в общественном здравоохранении
- Исследование обучения с подкреплением в Amazon Ads
- Моделирование сложных сетей на основе глубокого обучения с подкреплением
- Исследователи Калифорнийского университета в Беркли представили тест обучения с подкреплением без учителя (URLB)
- Планирование рабочей нагрузки на основе глубокого обучения для периферийных вычислений
- Обучение с подкреплением во время выполнения для безопасной стыковки спутников
- Обучение с подкреплением как парадигма тонкой настройки
Заявки на документы
- Специальный выпуск журнала INFORMS о вычислительной технике — масштабируемые алгоритмы обучения с подкреплением
- 19-я Европейская конференция по мультиагентным системам
Академические должности
- Постдок/к.т.н. в Глубоком RL и социальных дилеммах в «Метавселенной, Междисциплинарный центр, Герцлия (Университет Рейхмана), Израиль, профессор Дорон Фридман»
- 2 к.т.н. позиции в обучении с подкреплением в Дармштадтском техническом университете с интеллектуальными автономными системами профессора Яна Петерса
- Научный сотрудник в области эпистемического искусственного интеллекта
Если вы нашли этот информационный бюллетень полезным, рассмотрите возможность подписки на Medium и LinkedIn, подпишитесь на нас в Twitter и поделитесь им со своей сетью. Если вы заинтересованы в написании статей или у вас есть академические должности, напишите нам по адресу [email protected].