Мой путь к обучению с подкреплением

В настоящее время я очень мало знаю об обучении с подкреплением, и я хочу это изменить, поэтому вот мой первый шаг в обучении обучению с подкреплением. И в качестве первого шага я хочу сначала рассмотреть общие обзоры.

Обратите внимание, что этот пост предназначен для меня в будущем, и мой процесс обучения может быть медленным или отличаться от вашего.

Учебное пособие по обучению с подкреплением, Питер Бодик, Калифорнийский университет в Беркли

Из этой лекции я узнал, что обучение с подкреплением является более общим по сравнению с контролируемым или неконтролируемым обучением. Однако, похоже, все еще существует понятие цели, поэтому я предполагаю, что будет определенная функция затрат для измерения того, насколько мы близки к достижению этой цели. Ниже приводится очень хорошее резюме того, что может быть обучение с подкреплением.

Изображение справа → Оптимальное решение (без вознаграждения за каждый шаг)
Изображение в центре → Решение, когда вознаграждение за каждый шаг составляет -0,1
Лево Изображение → Решение, когда вознаграждение за каждый шаг составляет 0,01

Выше изображения являются прекрасным примером (для меня), который показывает, насколько сложным может быть обучение с подкреплением. Если мы сделаем робота, цель которого - набрать как можно больше очков, оптимальным решением будет наиболее подходящее изображение. Однако в зависимости от политики (на этот раз вознаграждение за каждый шаг) решения, которые усваивает робот, сильно различаются. Отсюда ppt объясняет довольно много математики, поэтому я бы не стал включать в него общий обзор, но ppt имел очень хорошую итоговую страницу.

Из вышесказанного я узнал, что когда используется обучение с подкреплением, и самая сложная часть обучения с подкреплением - это на самом деле проектирование функций, состояний и вознаграждений.

Учебное пособие Международной конференции по машинному обучению (ICML 2007)

Из предыдущей презентации мы уже узнали, что сложная часть - это создание состояния и награды. И эта аббревиатура внизу означает Марковский процесс принятия решений и Частично наблюдаемый Марковский процесс принятия решений.

Прекрасный пример состояний, действий и наград показан выше. Мы видим, что эту настройку легко применить к любым играм. (шахматы, начало крафта или даже настройки реального мира.)

Различные типы алгоритмов обучения, отсюда я узнал, что существуют разные наборы алгоритмов, похожие на набор алгоритмов классификации, SVM, NN или k-ближайших соседей.

Простое руководство для начинающих по обучению с подкреплением и его реализации (analyticsvidhya)

Когда мы используем обучение с подкреплением в Google, мы можем снова и снова видеть изображения, подобные приведенным выше. Так что вместо того, чтобы видеть агента или среду, давайте на самом деле представим это как процесс, в котором ребенок учится ходить.

« Постановка проблемы в этом примере: ходить, где ребенок - это агент, пытающийся манипулировать средой (которая представляет собой поверхность на по которому он ходит), предпринимая действия (например, ходя), и он / она пытается перейти из одного состояния (а именно каждого шага, который он / она делает) в другое . Ребенок получает награду (скажем, шоколад), когда он / она выполняет подмодуль задачи (а именно, делает пару шагов) и не получит шоколада (отрицательное вознаграждение), если не может ходить. Это упрощенное описание проблемы обучения с подкреплением. »- Файзан Шейх

На самом деле автор подробно объясняет, чем отличаются эти алгоритмы, если вы хотите их просмотреть нажмите здесь. Но в одном коротком предложении.

Контролируемое против RL: оба отображают взаимосвязь между вводом и выводом, но в RL есть функция вознаграждения для измерения действия, которое предпринял агент, а также функция затрат, чтобы измерить, если мы достигли конечной цели. (например, Победа в шахматной партии → Победа в игре важна, но есть несколько способов выиграть шахматную партию)
Неконтролируемое против RL: Неконтролируемое обучение - это ( в основном) поиск закономерностей в базовых данных и их кластеризация.

Заключительные слова

Еще один пост Введение в различные алгоритмы обучения с подкреплением. Часть I (Q-Learning, SARSA, DQN, DDPG) » - отличная статья, чтобы узнать о различных типах алгоритмов обучения. В целом в Интернете миллионы ресурсов, поэтому у любого, кто хочет изучить RL, не будет времени на поиск ресурсов.

Ссылка

(2018). Cs.uwaterloo.ca. Получено 6 апреля 2018 г. с сайта https://cs.uwaterloo.ca/~ppoupart/ICML-07-tutorial-slides/icml07-brl-tutorial-part2-intro-ghavamzadeh.pdf.
People.eecs.berkeley.edu, 2018. [Интернет]. Доступно: https://people.eecs.berkeley.edu/~jordan/MLShortCourse/reinforcement-learning.ppt. [Доступ: 06 апреля 2018 г.].
Частично наблюдаемый марковский процесс принятия решений. (2018). En.wikipedia.org. Получено 6 апреля 2018 г. с сайта https://en.wikipedia.org/wiki/Partial_observable_Markov_decision_process.
Марковский процесс принятия решений. (2018). En.wikipedia.org. Получено 6 апреля 2018 г. с сайта https://en.wikipedia.org/wiki/Markov_decision_process.
Введение в различные алгоритмы обучения с подкреплением. Часть I (Q-Learning, SARSA, DQN, DDPG). (2018). К науке о данных. Получено 6 апреля 2018 г. с сайта https://towardsdatascience.com/introduction-to-various-reinforcement-learning-algorithms-i-q-learning-sarsa-dqn-ddpg-72a5e0cb6287.

Мой путь к обучению с подкреплением - Часть 0: Введение

Вопросы по теме