Я делаю заметку о моем чтении бумаги, записывая несколько рассказов на среду. Недавно я начал проводить исследования по обучению с подкреплением, поэтому я ожидаю, что буду часто читать статьи, связанные с искусственным интеллектом. Специально, я хотел бы поделиться своей заметкой для всех.

Ссылка: Асинхронные методы глубокого обучения с подкреплением

Введение

Во-первых, если вы не знакомы с глубоким обучением с подкреплением, вы можете рассматривать его как основной алгоритм, лежащий в основе AlphaGo. В этом документе представлена ​​новая структура для глубокого обучения с подкреплением, поскольку традиционный алгоритм глубокого обучения с подкреплением (DQN) имеет несколько недостатков:

  • В случае онлайн-агента он нестационарен, и его данные сильно коррелированы.
  • Несмотря на то, что мы можем использовать повтор опыта, чтобы избежать некоторых проблем, упомянутых выше, он использует больше памяти и вычислений для каждого реального взаимодействия и требует данных вне политики, созданных старой политикой.

Поэтому авторы предлагают асинхронные методы глубокого обучения с подкреплением для преодоления этих недостатков.

Используя ЦП вместо ГП, мы можем открыть многопоточность для запуска той же среды, но с тем же весом модели.

Прочитав псевдокод, мы обнаруживаем, что он мало чем отличается от оригинального алгоритма DQN. Особой точкой является линия — t mod Iasyncupdate.
Разные нити будут иметь разные градиенты. Кроме того, можно обновить целевой вес сети до того, как градиенты станут равными нулю, и сделать градиенты более разнообразными.

Он также использует параметры общего доступа оптимизации RMSProp.

В дополнение к одноэтапному обучению Q эта идея также может применяться к другим алгоритмам, таким как n-шаговое обучение Q и n-шаговое Сарса. Асинхронный метод не только обеспечивает лучшую производительность, но также сокращает время обучения и позволяет эффективно использовать ресурсы. Вы можете увидеть больше графика сравнения на оригинальной бумаге.

Результат

Спасибо за то, что DeepMind предоставил потрясающие результаты в нескольких играх и загрузил их на Youtube.

TORCS Симулятор автомобильных гонок

Непрерывное управление действиями с использованием физического симулятора MuJoCo

Лабиринт

Самое сумасшедшее, что DeepMind может успешно играть в такую ​​сложную игру, в которой приходится менять пользовательскую камеру. Я думаю, что играть в Counter-Strike с помощью ИИ — это не мечта.

Читать статью очень интересно, но очень сложно понять алгоритм и реализовать его. Я думаю, что написание некоторых заметок может помочь изучить концепцию в статье, и это будет моей мотивацией читать все больше и больше статей. Если есть какие-либо неясности или ошибки в моих заметках, пожалуйста, дайте мне знать. Мы можем обсудить это :))

#Обучение с подкреплением
#ИИ