На этом уроке мы познакомимся с Обучением с подкреплением (RL), подобластью машинного обучения, ориентированной на обучение агентов принятию решений путем взаимодействия с окружающей средой. Мы создадим интуицию вокруг ключевых концепций и приложений RL.

Интуиция: обучение с подкреплением основано на том, как люди и животные учатся методом проб и ошибок. В RL агент учится принимать решения, совершая действия в среде, наблюдая за результатами и получая обратную связь в виде вознаграждений или штрафов. Цель агента — изучить политику, которая максимизирует кумулятивное вознаграждение с течением времени.

Некоторые распространенные приложения обучения с подкреплением включают:

  1. Игры. Обучайте агентов играть в такие игры, как го, шахматы или покер, на высоком уровне, как это показано на примере AlphaGo от DeepMind и Five от OpenAI.
  2. Робототехника. Разрабатывайте роботов, которые могут научиться выполнять такие задачи, как ходьба, хватание или полет, посредством взаимодействия с окружающей средой.
  3. Автономные транспортные средства. Научите беспилотные автомобили ориентироваться в сложных условиях и принимать безопасные решения за рулем.
  4. Распределение ресурсов. Оптимизируйте распределение ресурсов в таких областях, как телекоммуникации, производство или логистика.
  5. Персональные рекомендации: персонализируйте рекомендации для пользователей на основе их взаимодействий и предпочтений.

Обучение с подкреплением можно условно разделить на два основных компонента:

  1. Среда. Представляет собой внешний контекст, в котором работает агент. Среда предоставляет агенту наблюдения (например, текущее состояние) и вознаграждения (отзывы о действиях агента).
  2. Агент. Это обучающийся объект, который принимает решения и взаимодействует с окружающей средой. Агент выполняет действия на основе своего текущего состояния и изученной политики, которая отображает состояния в действия.

Процесс обучения с подкреплением обычно включает следующие этапы:

  1. Инициализация. Агент запускается в начальном состоянии, и среда настроена.
  2. Выбор действия. Агент выбирает действие на основе своего текущего состояния и политики.
  3. Выполнение действия. Агент выполняет выбранное действие, и среда переходит в новое состояние.
  4. Наблюдение за вознаграждением. Агент наблюдает за вознаграждением, связанным с предпринятым действием.
  5. Обновление политики. Агент обновляет свою политику на основе наблюдаемого вознаграждения и нового состояния.
  6. Повторение: шаги 2–5 повторяются до тех пор, пока не будет достигнуто условие завершения (например, максимальное количество шагов или целевое состояние).

Алгоритмы обучения с подкреплением можно разделить на три типа:

  1. Методы, основанные на ценности. Эти методы оценивают ценность выполнения действия в заданном состоянии и изучают политику, которая выбирает действия с наивысшей ценностью. Примеры включают Q-обучение и SARSA.
  2. Методы, основанные на политике. Эти методы напрямую изучают политику, которая сопоставляет состояния с действиями без явной оценки значений. Примеры включают REINFORCE и Proximal Policy Optimization (PPO).
  3. Методы на основе моделей. Эти методы изучают модель среды, чтобы предсказывать следующее состояние и вознаграждать за текущее состояние и действие. Они используют эту модель для планирования и оптимизации действий. Примеры включают поиск по дереву Монте-Карло (MCTS) и Dyna-Q.