Публикации по теме 'deep-rl'


Математика алгоритма градиента политики объясняется реализацией PyTorch
Пошаговое объяснение алгоритма градиента политик RL и его реализации. Оглавление · Введение · Метод градиента политики ∘ Вывод ∘ Оптимизация ∘ Алгоритм · Реализация PyTorch ∘ Сети ∘ Цикл обучения (основной алгоритм) ∘ Результаты обучения · Заключение · Литература Введение Обучение с подкреплением (RL) — это подобласть ИИ, цель которой — позволить машинам учиться и улучшать свое поведение, взаимодействуя с окружающей средой и получая обратную..

Заметки с первого семинара OpenAI по глубокому обучению с подкреплением
На прошлой неделе у меня была возможность посетить первый семинар и хакатон OpenAI для Spinning Up. Семинар проводил один из моих героев и ведущий исследователь глубокого обучения с подкреплением, Джош Ачиам . Первая половина воркшопа касалась основ глубокого обучения с подкреплением. Часть 2, представленная Джошем Ачиамом. После этого у нас был краткий разговор об обучении ловкости, представленный Matthias Plappert из команды робототехники OpenAI. Затем у нас был еще один..