Публикации по теме 'dqn'


Использование AlphaGo Deep Q-Learning для обучения ловкости
Это рецензия на проект Deep RL, основанный на проекте NVidia с открытым исходным кодом jetson-reinforcement , разработанном Dustin Franklin . Цель проекта - создать агента DQN и определить функции вознаграждения, чтобы научить роботизированную руку выполнять две основные задачи: Прикоснитесь любой частью руки робота к интересующему объекту с точностью не менее 90%. Только основание захвата манипулятора должно касаться объекта с точностью не менее 80%. Настройка гиперпараметров..

[Резюме статьи] Глубокое обучение с подкреплением с двойным Q-обучением
Мне нравится первая часть статьи, описывающая RL в краткой и ясной форме. «Цель обучения с подкреплением состоит в том, чтобы изучить хорошие стратегии для последовательных проблем принятия решений, оптимизируя кумулятивный сигнал будущего вознаграждения». Они пытаются устранить переоценку, вызванную неточными значениями действий. Кстати, игры Atari — это детерминированная среда. 1. Предпосылки Начнем с самого начала. здесь истинное значение действия a в состоянии s при данном..

Распределенное обучение с подкреплением - часть 1 (C51 и QR-DQN)
Мотивация Методы обучения с подкреплением на основе ценности, такие как DQN, пытаются смоделировать ожидание общей отдачи или ценности . То есть значение действия a в состоянии s описывает ожидаемую отдачу или дисконтированную сумму вознаграждений. , полученный с самого начала в этом состоянии, выбрав действие a, а затем следуя предписанной политике. Все переходы между состояниями, действия и вознаграждения, которые используются для расчета стоимости или долгосрочной..

Q-обучение вне политики во вселенной OpenAI: Часть 2 - Тренируйте свою собственную функцию вознаграждения
Введение: Алгоритмы обучения с подкреплением пытаются максимизировать сумму вознаграждений, которые они получают за выполнение данной задачи. В идеале это вознаграждение представляет собой числовые значения, которые говорят алгоритму, насколько хорошо или плохо было то или иное действие в данной ситуации. В части 1 этого блога я обучил DQN, или глубокую Q-сеть, игре в гоночную игру во вселенной OpenAI. Поскольку в этой игре были правильные числовые награды, это сработало относительно..

Введение в вопрос о смертельной триаде обучения с подкреплением
Когда я узнал о глубоком обучении с подкреплением, я прочитал о смертельной проблеме триады, но не смог найти удовлетворительного простого объяснения (кроме научных статей). Таким образом, я делаю две статьи, чтобы объяснить с помощью интуиции (то есть немного математики) сначала, что это такое, а затем как с этим справиться. В этой проблеме говорится, что при попытке объединить TD-обучение (или начальную загрузку) , обучение вне политики и аппроксимации функций (например, Deep..

Вопросы по теме 'dqn'

Проблема агента Tensorflow 2.0 DQN с настраиваемой средой
Итак, я следил за примером / учебником агента DQN и настроил его, как в примере, с той лишь разницей, что я создал свою собственную среду Python, которую затем обернул в TensorFlow. Однако независимо от того, как я формирую свои наблюдения и...
737 просмотров
schedule 15.10.2022

Почему алгоритм сетей Deep Q выполняет только один шаг градиентного спуска?
Почему алгоритм dqn выполняет только один шаг градиентного спуска, т.е. обучает только одну эпоху? Разве он не выиграет от большего количества эпох, разве его точность не улучшится с увеличением количества эпох?
83 просмотров
schedule 28.03.2023

Можно ли удалить самый старый опыт DQN?
Я создал DQN с максимальным размером памяти 100000. У меня есть функция, которая удаляет самый старый элемент в памяти, если его размер больше максимального размера. Когда я запускал его на 200 эпизодах, я заметил, что память уже переполнена на 125-м...
60 просмотров

Глубокое Q-Learning для мира сетки
Кто-нибудь реализовал Deep Q-learning для решения проблемы мира сетки, где состояние — это координаты [x, y] игрока, а цель — достичь определенной координаты [A, B]. Настройка вознаграждения может быть -1 за каждый шаг и +10 за достижение [A,B]. [A,...
302 просмотров

Как реализовать градиентный подъем в Keras DQN
Создайте DQN обучения с подкреплением с последовательностями переменной длины в качестве входных данных и положительными и отрицательными наградами, рассчитанными за действия. Некоторая проблема с моей моделью DQN в Keras означает, что, хотя модель...
144 просмотров
schedule 17.05.2022