Что происходит внутри Агента, который заставляет машины учиться побеждать чемпионов мира в настольных играх?

TD = Ограничение среды + Будущие возможности — Текущее действие

Что, если вам нужно вычислить только TD, чтобы понять, как работает обучение с подкреплением?

Это удивительный класс алгоритмов машинного обучения, который заставляет агента (то есть робота) учиться так же, как наш мозг. Агент взаимодействует со средой и после каждого взаимодействия вычисляет TD для обновления качества действия. Теория основана на том, как мозг обучается, действуя в качестве агента от нашего имени посредством взаимодействия с окружающей средой. Мозг начинает работать с момента нашего рождения и продолжает помогать нам легко справляться со сложностями жизни. Для каждого Действия, которое мы предпринимаем, мозг отслеживает TD, чтобы Подкреплять хорошее поведение (Действия).

Это так просто, что касается интуиции. Для дальнейшего объяснения; Давайте сыграем в игру, предположив, что ваша цель — заработать миллион долларов. Есть определенные шаги, при правильном выполнении которых вы добьетесь поставленной цели. Один из этих шагов — решить пойти поужинать; учитывая, что есть три варианта; X, Y и Z. Какой из них вы выберете?

Когда вы решили пойти в ресторан,

  • ЛИБО вы выбираете случайным образом исследовать
  • ИЛИ вы хотите использовать свой предыдущий опыт посещения проверенного ресторана.

Предположим, вы выбрали X. Поскольку все действия имеют последствия. Следовательно, посещение ресторана X будет иметь последствия. Назовем последствия ценностью или качеством.

Исправлять; Прежде чем выйти на улицу, вы можете быть голодны, устали или и то, и другое. Вот почему вы решили пойти куда-нибудь поужинать. Итак, когда вы проголодались и устали, текущее состояние, вы предприняли действие, отправившись в «случайно выбранный» или «лучший доступный» ресторан X. Ценность (Качество) это действие основано на вашем прошлом опыте. Назовем это Ожидаемое удовлетворение.

Как только вы дошли до ресторана X, заказали еду и начали общение, у вас появились друзья, которые могут принести вам бизнес. Таким образом, посещение ресторана X приблизило вас на один шаг к цели. Вы чувствуете себя бодро. Что будешь делать?

Я уверен, что вы хотели бы прийти в этот ресторан X снова. Правильно?

После установления деловых контактов последствия (ожидаемое удовлетворение) действия не могут оставаться прежними. Качество улучшится (приближается новый бизнес) или ухудшится (что-то случается, может быть, новые друзья были не такими уж хорошими). Назовем это послеобеденное удовлетворение от похода в ресторан X Action настоящим удовлетворением.

Теперь добавьте изюминку в эту игру; Иногда может возникнуть ситуация, когда вы решили пойти поужинать, но пропускаете важное дело. Например, крайний срок, чтобы представить проект или сделать важный звонок клиенту. Жизнь состоит не только из хорошей еды. Согласованный?

Вы должны жить с ограничениями и выбирать действия, которые максимизируют преимущества. Среда накладывает Ограничение, чтобы сообщить вам, что вы только что сделали хорошую работу или плохую работу. Ограничение (читай Награда) — это вторая часть информации, которая вам понадобится, чтобы найти шаги, чтобы стать миллионером. Чтобы сделать вещи более интересными, давайте предположим, что вы знаете об ограничениях/вознаграждениях только после того, как совершите действие.

Встречаться с друзьями и узнавать позже, что вы провалили проект или потеряли клиента за это время. Это хуже. правильно?

Мы договорились, что после установления деловых связей последствия (Качество) действия не могут оставаться прежними. Оно должно меняться в зависимости от награды и фактического удовлетворения. Общее увеличение или уменьшение выгоды от посещения ресторана составляет;

TD = Ограничение + Фактическое удовлетворениеОжидаемое удовлетворение

Давайте обобщим;

Ограничение = Вознаграждение за любое Действие

Фактическое удовлетворение = Качество наилучшего возможногодействия в будущем состоянии

Ожидаемое удовлетворение = качество действия в текущем состоянии

Вы только что рассчитали величину, называемую Временная разница (TD) между вашим уровнем удовлетворенности до и после совершения действия. Все, что вам нужно, это постоянно обновлять свое качество действий с помощью TD и продолжать следовать действиям наилучшего качества (с небольшим количеством исследований).

Качество действияв текущем состоянии = качество действияв текущем Штат + TD

Теоретически однажды вы выиграете эту игру, найдя лучшие шаги для достижения своей цели.

Если вы любите экспериментировать и предпочитаете учиться, делая и визуализируя, перейдите к Интерактивному учебному пособию. Посмотрите это короткое видео, чтобы понять, как использовать интерфейс;

Краткий обзор концепций обучения с подкреплением приведен здесь более подробно;

Пожалуйста, поделитесь своими мыслями. Спасибо за ваше время.