Серия AWS DeepRacer

Случайное введение в обучение с подкреплением

Интуитивное объяснение того, что такое обучение с подкреплением

Прежде всего, я хочу поблагодарить Jakarta Machine Learning и AWS за предоставленную мне возможность присоединиться к учебному лагерю AWS DeepRacer. Я обязательно поделюсь своим опытом обучения во время этого учебного лагеря в моих статьях. Итак, следите за обновлениями, чтобы узнать больше о моем опыте в учебном лагере!

В этом учебном лагере я и 8 других участников будем подготовлены к AWS DeepRacer League. Для тех из вас, кто не знает, AWS DeepRacer - это, по сути, автономный гоночный автомобиль с масштабированием, а AWS DeepRacer League - первая глобальная автономная гоночная лига.

Чтобы участвовать в гонках автономно, AWS DeepRacer необходимо научиться управлять самим собой, как профессиональный гонщик управляет своей машиной. Этот механизм обучения также похож на механизм малыша, который учится ходить. Как и в предыдущем примере, AWS DeepRacer также применяет этот метод обучения, который называется обучением с подкреплением.

Что такое обучение с подкреплением?

На этом этапе вам может быть интересно, что такое обучение с подкреплением. Проще говоря, обучение с подкреплением - это обучение посредством взаимодействия с окружающей средой. Он активный и последовательный, что означает, что будущее зависит от предыдущих взаимодействий. Кроме того, он направлен на достижение цели, и система может учиться без примеров оптимального поведения (метод проб и ошибок).

Что касается беспилотного автомобиля, вы можете задать следующий вопрос.

Почему мы не можем запрограммировать машину так, чтобы она точно поворачивала налево и направо?

Что ж, есть две причины научиться. Во-первых, мы хотим найти ранее неизвестные решения. Например, программа, которая может обыграть человека-мастера по шахматам. Во-вторых, мы хотим найти решения для непредвиденных обстоятельств. Например, автономный автомобиль, который может перемещаться по трассам, которые сильно отличаются от любых известных трасс.

Другими словами, обучение с подкреплением - это наука о том, как научиться принимать решения на основе взаимодействия с окружающей средой. Эта концепция применяется во многих областях, от информатики до экономики.

Некоторые характеристики отличают обучение с подкреплением от других типов обучения. Во-первых, отсутствует контроль, дается только сигнал вознаграждения. Он просто говорит вам, насколько ему нравится решение, но не дает вам того, что вы должны делать. Другой особенностью является то, что обратная связь может быть отложена, а не получена мгновенно. Последовательность также имеет значение, поскольку более ранние решения влияют на последующие взаимодействия.

Чтобы лучше понять обучение с подкреплением, нам нужно рассмотреть пример проблемы принятия решения. Одним из примеров является управление инвестиционным портфелем, в котором вы принимаете решение на основе вознаграждения (прибыли). Это вознаграждение может быть краткосрочным или долгосрочным, что означает, что вознаграждение отсрочено. Более того, последовательность покупки-продажи также может повлиять на ваш портфель. Это показывает, что это пример проблемы обучения с подкреплением.

Характеристики обучения с подкреплением - сигнал вознаграждения, отложенная обратная связь и последовательность.

Основные концепции

При понимании обучения с подкреплением мы должны знать несколько аспектов. Это среда, сигнал вознаграждения, и агент. агент также включает состояние агента, политику, и функция значения.

Взаимодействие между агентом и средой можно описать следующим образом. На каждом временном шаге агент получает наблюдение и вознаграждение при выполнении действия. С другой стороны, среда получает действие, а затем передает наблюдение и вознаграждение.

Награда - это сигнал обратной связи, который показывает, насколько хорошо агент работает на каждом временном шаге. Задача агента - максимизировать совокупное вознаграждение от настоящего до будущего. Накопительное вознаграждение также называется доходностью. Это показывает нам, что обучение с подкреплением основано на гипотезе вознаграждения.

Любую цель можно рассматривать как результат максимальной отдачи.

Теперь я хочу, чтобы вы подумали об этом. Вы принимаете или отвергаете эту гипотезу?

На основе возврата нас также интересует значение, которое является ожидаемым возвращением из настоящего. Слово «ожидаемый» означает, что мы принимаем во внимание вероятность получения вознаграждения в будущем. Таким образом, цель агента изменяется на максимизировать ценность, выбирая наилучшие действия.

Однако действия могут иметь долгосрочные последствия, а вознаграждение может не быть получено мгновенно. При некоторых обстоятельствах в долгосрочной перспективе может быть выгодно пожертвовать немедленным вознаграждением. Например, финансовые вложения могут занять годы, прежде чем они станут очень прибыльными, хотя вначале они могут понести некоторые убытки.

Компоненты агента

Три основных компонента агента: состояние агента, политика, и функция значения.

Действия зависят от состояния агента. Состояние можно определить как информацию, используемую для определения того, что произойдет дальше. В простейшем случае есть только одно состояние. Однако в зависимости от обстоятельств может быть много разных состояний. Например, когда мы хотим купить еду, мы неосознанно обращаем внимание на состояние нашего тела, такое как уровень голода и предпочтения в еде.

Сопоставление состояния с действием называется политикой. Политика определяет поведение агента в соответствии с его текущим состоянием. Взяв себя в качестве примера, я хотел бы иметь горячий шоколад каждый раз, когда идет дождь. И наоборот, в жаркий день я пил холодный чай с лимоном. Другими словами, мое поведение определяется моей политикой, которая переводит погодные условия (state) в мой выбор напитка (action).

В то время как состояние и политика определяют поведение агента, функция значения вычисляет ожидаемый возврат или предсказание будущего награды. Он используется для оценки желательности состояний и того, какие действия наиболее выгодны. Иногда полезно использовать коэффициент дисконтирования, который сравнивает важность немедленного и долгосрочного вознаграждения. Низкий коэффициент скидки означает, что вы заботитесь только о немедленном вознаграждении и наоборот.

Хотя обучение с подкреплением решает многие проблемы, связанные с принятием решений, существует проблема, которая называется эксплуатация и исследование. Использование означает, что агент использует известную информацию для получения максимального вознаграждения. С другой стороны, исследование находит новую информацию, чтобы, надеюсь, получить больше вознаграждений.

Например, решая, что вы хотите съесть, вы можете подумать, что награда - это ваше удовлетворение от еды. Чтобы получить от этого максимум удовольствия, вы всегда можете съесть свое любимое блюдо (эксплуатация). Кроме того, вы можете попробовать новые блюда, чтобы найти что-нибудь еще вкуснее (исследование).

Заключение

Вкратце, обучение с подкреплением относится к обучению методом проб и ошибок, в ходе которого агент должен найти хорошую политику, которая максимизирует отдачу за счет взаимодействия с окружающей средой.

использованная литература

Если вы хотите узнать больше об обучении с подкреплением, я предлагаю вам проверить эти источники, как это сделал я.

  1. Лекция Хадо ван Хасселта по RL - Курс 1: Введение в обучение с подкреплением.
  2. Обучение с подкреплением: Введение (2015) Ричарда С. Саттона и Эндрю Дж. Барто.

Заключительные замечания

Спасибо, что нашли время прочитать эту статью! Надеюсь, вы узнаете что-то новое и сможете воплотить эту идею в жизнь. Следите за обновлениями в моих следующих статьях, посвященных деталям обучения с подкреплением и AWS DeepRacer. Я надеюсь у тебя хороший день!

об авторе

Алиф Ильхам Мадани - амбициозный энтузиаст науки о данных и машинного обучения, который любит получать информацию от других. Он изучает электротехнику в одном из лучших университетов Индонезии Institut Teknologi Bandung.

Если у вас есть какие-то темы для обсуждения, вы можете связаться с Алифом через LinkedIn и Twitter.