Урок 37 — Машинное обучение: введение в обучение с подкреплением (интуиция)

На этом уроке мы познакомимся с Обучением с подкреплением (RL), подобластью машинного обучения, ориентированной на обучение агентов принятию решений путем взаимодействия с окружающей средой. Мы создадим интуицию вокруг ключевых концепций и приложений RL.

Интуиция: обучение с подкреплением основано на том, как люди и животные учатся методом проб и ошибок. В RL агент учится принимать решения, совершая действия в среде, наблюдая за результатами и получая обратную связь в виде вознаграждений или штрафов. Цель агента — изучить политику, которая максимизирует кумулятивное вознаграждение с течением времени.

Некоторые распространенные приложения обучения с подкреплением включают:

Игры. Обучайте агентов играть в такие игры, как го, шахматы или покер, на высоком уровне, как это показано на примере AlphaGo от DeepMind и Five от OpenAI.
Робототехника. Разрабатывайте роботов, которые могут научиться выполнять такие задачи, как ходьба, хватание или полет, посредством взаимодействия с окружающей средой.
Автономные транспортные средства. Научите беспилотные автомобили ориентироваться в сложных условиях и принимать безопасные решения за рулем.
Распределение ресурсов. Оптимизируйте распределение ресурсов в таких областях, как телекоммуникации, производство или логистика.
Персональные рекомендации: персонализируйте рекомендации для пользователей на основе их взаимодействий и предпочтений.

Обучение с подкреплением можно условно разделить на два основных компонента:

Среда. Представляет собой внешний контекст, в котором работает агент. Среда предоставляет агенту наблюдения (например, текущее состояние) и вознаграждения (отзывы о действиях агента).
Агент. Это обучающийся объект, который принимает решения и взаимодействует с окружающей средой. Агент выполняет действия на основе своего текущего состояния и изученной политики, которая отображает состояния в действия.

Процесс обучения с подкреплением обычно включает следующие этапы:

Инициализация. Агент запускается в начальном состоянии, и среда настроена.
Выбор действия. Агент выбирает действие на основе своего текущего состояния и политики.
Выполнение действия. Агент выполняет выбранное действие, и среда переходит в новое состояние.
Наблюдение за вознаграждением. Агент наблюдает за вознаграждением, связанным с предпринятым действием.
Обновление политики. Агент обновляет свою политику на основе наблюдаемого вознаграждения и нового состояния.
Повторение: шаги 2–5 повторяются до тех пор, пока не будет достигнуто условие завершения (например, максимальное количество шагов или целевое состояние).

Алгоритмы обучения с подкреплением можно разделить на три типа:

Методы, основанные на ценности. Эти методы оценивают ценность выполнения действия в заданном состоянии и изучают политику, которая выбирает действия с наивысшей ценностью. Примеры включают Q-обучение и SARSA.
Методы, основанные на политике. Эти методы напрямую изучают политику, которая сопоставляет состояния с действиями без явной оценки значений. Примеры включают REINFORCE и Proximal Policy Optimization (PPO).
Методы на основе моделей. Эти методы изучают модель среды, чтобы предсказывать следующее состояние и вознаграждать за текущее состояние и действие. Они используют эту модель для планирования и оптимизации действий. Примеры включают поиск по дереву Монте-Карло (MCTS) и Dyna-Q.

Урок 37 — Машинное обучение: введение в обучение с подкреплением (интуиция)

Вопросы по теме