Публикации по тегам deep-rl

Публикации по теме 'deep-rl'

Математика алгоритма градиента политики объясняется реализацией PyTorch

Пошаговое объяснение алгоритма градиента политик RL и его реализации. Оглавление · Введение · Метод градиента политики ∘ Вывод ∘ Оптимизация ∘ Алгоритм · Реализация PyTorch ∘ Сети ∘ Цикл обучения (основной алгоритм) ∘ Результаты обучения · Заключение · Литература Введение Обучение с подкреплением (RL) — это подобласть ИИ, цель которой — позволить машинам учиться и улучшать свое поведение, взаимодействуя с окружающей средой и получая обратную..

Заметки с первого семинара OpenAI по глубокому обучению с подкреплением

На прошлой неделе у меня была возможность посетить первый семинар и хакатон OpenAI для Spinning Up. Семинар проводил один из моих героев и ведущий исследователь глубокого обучения с подкреплением, Джош Ачиам . Первая половина воркшопа касалась основ глубокого обучения с подкреплением. Часть 2, представленная Джошем Ачиамом. После этого у нас был краткий разговор об обучении ловкости, представленный Matthias Plappert из команды робототехники OpenAI. Затем у нас был еще один..

Публикации по теме 'deep-rl'

Математика алгоритма градиента политики объясняется реализацией PyTorch

Заметки с первого семинара OpenAI по глубокому обучению с подкреплением

Вопросы по теме