Я делаю заметку о моем чтении бумаги, записывая несколько рассказов на среду. Недавно я начал проводить исследования по обучению с подкреплением, поэтому я ожидаю, что буду часто читать статьи, связанные с искусственным интеллектом. Специально, я хотел бы поделиться своей заметкой для всех.
Ссылка: Асинхронные методы глубокого обучения с подкреплением
Введение
Во-первых, если вы не знакомы с глубоким обучением с подкреплением, вы можете рассматривать его как основной алгоритм, лежащий в основе AlphaGo. В этом документе представлена новая структура для глубокого обучения с подкреплением, поскольку традиционный алгоритм глубокого обучения с подкреплением (DQN) имеет несколько недостатков:
- В случае онлайн-агента он нестационарен, и его данные сильно коррелированы.
- Несмотря на то, что мы можем использовать повтор опыта, чтобы избежать некоторых проблем, упомянутых выше, он использует больше памяти и вычислений для каждого реального взаимодействия и требует данных вне политики, созданных старой политикой.
Поэтому авторы предлагают асинхронные методы глубокого обучения с подкреплением для преодоления этих недостатков.
Используя ЦП вместо ГП, мы можем открыть многопоточность для запуска той же среды, но с тем же весом модели.
Прочитав псевдокод, мы обнаруживаем, что он мало чем отличается от оригинального алгоритма DQN. Особой точкой является линия — t mod Iasyncupdate.
Разные нити будут иметь разные градиенты. Кроме того, можно обновить целевой вес сети до того, как градиенты станут равными нулю, и сделать градиенты более разнообразными.
Он также использует параметры общего доступа оптимизации RMSProp.
В дополнение к одноэтапному обучению Q эта идея также может применяться к другим алгоритмам, таким как n-шаговое обучение Q и n-шаговое Сарса. Асинхронный метод не только обеспечивает лучшую производительность, но также сокращает время обучения и позволяет эффективно использовать ресурсы. Вы можете увидеть больше графика сравнения на оригинальной бумаге.
Результат
Спасибо за то, что DeepMind предоставил потрясающие результаты в нескольких играх и загрузил их на Youtube.
TORCS Симулятор автомобильных гонок
Непрерывное управление действиями с использованием физического симулятора MuJoCo
Лабиринт
Самое сумасшедшее, что DeepMind может успешно играть в такую сложную игру, в которой приходится менять пользовательскую камеру. Я думаю, что играть в Counter-Strike с помощью ИИ — это не мечта.
Читать статью очень интересно, но очень сложно понять алгоритм и реализовать его. Я думаю, что написание некоторых заметок может помочь изучить концепцию в статье, и это будет моей мотивацией читать все больше и больше статей. Если есть какие-либо неясности или ошибки в моих заметках, пожалуйста, дайте мне знать. Мы можем обсудить это :))
#Обучение с подкреплением
#ИИ