В чем заключается концепция Q-Learning?

Q-learning (Quality Learning) – это нестандартная концепция обучения с подкреплением, которая позволяет найти наилучшее действие для текущего состояния. Это концепция обучения вне политики, потому что функция в этом типе обучения учится на действиях, которые лежат за пределами текущей заданной политики, которая состоит из принятия случайных действий, и поэтому концепция политики не требуется.

Достижения в области Q-Learning

  1. Обучение Logit-Q в марковских играх (arXiv)

Автор: Мухаммед О. Саин, Онур Унлу

Аннотация: мы представляем новую независимую динамику обучения, доказуемо сходящуюся к эффективному равновесию (также известному как оптимальное равновесие), максимизирующему общественное благосостояние в дисконтированных марковских играх с одинаковым интересом (MG) с бесконечным горизонтом, за пределами недавней концентрации прогресса по доказуемой сходимости к некоторому (возможно, неэффективному) равновесию. Динамика независима в том смысле, что агенты предпринимают действия, не учитывая цели других в процессе принятия решений, и их решения согласуются с их целями, основанными на поведенческих моделях обучения. Независимая и одновременная адаптация агентов в MG ставит ключевые проблемы: i) возможная сходимость к неэффективному равновесию и ii) возможная нестационарность среды с точки зрения одного агента. Мы обращаемся к первому, обобщая логарифмически-линейную динамику обучения на настройки MG, и обращаемся ко второму через представленную схему «игра в раундах». В частности, в MG агенты играют (в нормальной форме) стадийные игры, связанные с посещаемым состоянием, на основе их оценок продолжения выплат. Мы позволяем агентам играть в эти стадийные игры по раундам таким образом, чтобы их оценки выплат за продолжение обновлялись только в конце раунда. Это делает эти этапные игры стационарными в каждом раунде. Следовательно, динамика аппроксимирует итерацию ценности, и следует сходимость к социальному оптимуму лежащей в основе МГ.

2. Оптимизация доходности с использованием показателя Херста и Q-обучения по импульсу и стратегиям возврата к среднему (arXiv)

Автор:Ю. Чанг, С. Лизарди, Р. Шах

Вывод:торговые стратегии импульса и возврата к среднему имеют противоположные характеристики. Первый, как правило, лучше работает с трендовыми активами, а второй — с активами, возвращающимися к среднему. Используя показатель Херста, который классифицирует временные ряды как трендовые или средние, мы пытаемся торговать с каждой стратегией, когда в среднем выгодно получать более высокую прибыль. В конечном итоге мы обнаруживаем, что торговля с показателем Херста может принести более высокую прибыль, но она также сопряжена с более высоким риском. Наконец, мы рассматриваем ограничения нашего исследования и предлагаем метод, использующий Q-обучение для улучшения нашей стратегии и реализации отдельных алгоритмов.

3. Приблизительное Q-обучение и SARSA(0) в рамках ε-жадной политики: анализ дифференциального включения (arXiv)

Автор: Адитья Гопалан, Гуган Топпе

Аннотация:Q-обучение и SARSA(0) с аппроксимацией линейной функции при ε-жадном исследовании являются ведущими методами оценки оптимальной политики в обучении с подкреплением (RL). Эмпирически известно, что прерывистый характер жадных политик приводит к тому, что эти алгоритмы демонстрируют сложные явления, такие как 1) нестабильность, 2) колебания и колебания политики, 3) множественные аттракторы и 4) наихудшая конвергенция политики. Однако в литературе отсутствует формальный рецепт для объяснения такого поведения, и эта проблема долгое время оставалась открытой (Sutton, 1999). Наша работа решает эту проблему путем создания необходимой математической основы с использованием стохастических рекурсивных включений и дифференциальных включений (DI). С этой новой точки зрения наш основной результат гласит, что эти приближенные алгоритмы асимптотически сходятся к подходящим инвариантным наборам DI, а не к дифференциальным уравнениям, как это принято в других областях RL. Кроме того, природа этих детерминированных DI полностью определяет ограничивающее поведение этих алгоритмов.

4. Характеристика разрыва действия-обобщения в глубоком Q-обучении (arXiv)

Автор:Чжиюань Чжоу, Кэмерон Аллен, Кавош Асади, Джордж Конидарис

Аннотация: мы изучаем способность глубокого Q-обучения к обобщению действий в дискретных пространствах действий. Обобщение имеет решающее значение для эффективного обучения с подкреплением (RL), поскольку оно позволяет агентам использовать знания, полученные из прошлого опыта, при решении новых задач. Но в то время как аппроксимация функций предоставляет агентам глубокого RL естественный способ обобщения входных данных состояния, тот же механизм обобщения неприменим к дискретным выходным данным действий. И все же, как ни удивительно, наши эксперименты показывают, что Deep Q-Networks (DQN), которые используют именно этот тип аппроксиматора функций, все же способны достичь умеренного обобщения действий. Наш основной вклад состоит из двух частей: во-первых, мы предлагаем метод оценки обобщения действий, используя экспертные знания о сходстве действий, и эмпирически подтверждаем, что обобщение действий приводит к более быстрому обучению; во-вторых, мы характеризуем разрыв между действиями и обобщением (разница в эффективности обучения между DQN и экспертом) в разных областях. Мы обнаруживаем, что DQN действительно может обобщать действия в нескольких простых областях, но его способность делать это уменьшается по мере увеличения пространства действия.