Публикации по теме 'deep-rl'
Математика алгоритма градиента политики объясняется реализацией PyTorch
Пошаговое объяснение алгоритма градиента политик RL и его реализации.
Оглавление
· Введение · Метод градиента политики ∘ Вывод ∘ Оптимизация ∘ Алгоритм · Реализация PyTorch ∘ Сети ∘ Цикл обучения (основной алгоритм) ∘ Результаты обучения · Заключение · Литература
Введение
Обучение с подкреплением (RL) — это подобласть ИИ, цель которой — позволить машинам учиться и улучшать свое поведение, взаимодействуя с окружающей средой и получая обратную..
Заметки с первого семинара OpenAI по глубокому обучению с подкреплением
На прошлой неделе у меня была возможность посетить первый семинар и хакатон OpenAI для Spinning Up. Семинар проводил один из моих героев и ведущий исследователь глубокого обучения с подкреплением, Джош Ачиам . Первая половина воркшопа касалась основ глубокого обучения с подкреплением. Часть 2, представленная Джошем Ачиамом. После этого у нас был краткий разговор об обучении ловкости, представленный Matthias Plappert из команды робототехники OpenAI. Затем у нас был еще один..