Существует довольно большой коммит "bb40378", вызвавший эту проблему, так как некоторые вещи были изменены в этом коммите, что нарушило baselines/deepq/experiments/atari/train.py и Enjoy.py. Я заставил их работать со следующими шагами:
- Замените baselines/common/misc_util.py версией из коммита «8822518». Все, что произошло в коммите «bb40378», — это удаление SimpleMonitor, который устанавливает эти необходимые ключи «шаги» и «вознаграждения», необходимые для train.py, поэтому получение старой версии возвращает это.
- Измените train.py, чтобы импортировать этот SimpleMonitor и использовать его, а также исправить эту проблему с оболочкой env (я считаю, что wrap_atari_dqn является правильным)
Я разветвил их репозиторий для этого исправления. Коммит можно увидеть здесь. клонируйте их репо или просто клонируйте мое репо, как вам удобнее.
Пока я этим занимался, я включил параметр Enjoy.py, чтобы отображать наблюдение так, как показано на модели (чтобы вы могли увидеть, потеряла ли масштабирование или преобразование в градациях серого важную информацию для игры).
Обновлять
Вероятно, стоит отметить, что я пробовал это на Pong и Breakout с небольшим успехом. С Breakout он просто идет и садится в дальний левый угол экрана, поскольку подача всегда кажется там, что неизбежно приносит некоторые очки, но на самом деле это не игра. С Pong он просто перемещается в нижнюю часть экрана и остается там. Так что, по крайней мере, учебный материал по умолчанию в рамках этого эксперимента / atari, похоже, не слишком хорошо изучает материал atari, возможно, есть некоторые настройки, которые необходимо изменить, и он взлетит, но имейте в виду, что он не удивит и ошеломит вас. друзья из коробки.
person
Jesse Pangburn
schedule
05.01.2018