Танец жизни: человеческое отражение обучения с подкреплением

В этом блоге, состоящем из двух частей, я попытаюсь создать упрощенное объяснение концепций, необходимых для понимания обучения с подкреплением, а также создам свою собственную версию игры ColorSort и позволю своему агенту RL делать немыслимое: сортировать цвета. Кий вздох.

В этом начальном посте освещаются некоторые основные концепции и терминология обучения с подкреплением, а также проводятся параллели с тем, насколько близко оно имитирует всех нас, просто пытающихся ориентироваться в нашей повседневной жизни.

В конце концов, это не может быть простым совпадением, что Reinforcement Learning (RL) имеет такое же сокращение, как Real жизнь.

P.S. В этой части не будет математических формул, но будьте уверены, что аналогии с человеческой жизнью, безусловно, демистифицируют лежащие в основе концепции.

Что такое обучение с подкреплением?

RL — это метод машинного обучения, который позволяет агенту взаимодействовать с средой и учиться методом проб и ошибок, используя отзывы о своих собственных действиях. и впечатления. Звучит знакомо? Это может быть потому, что мы, люди, буквально живем и дышим одним и тем же определением.

Основные элементы RL

Назовите кого-то/что-то, что попало в странный новый мир без каких-либо предшествующих воспоминаний, и все, что они могут сделать, это взаимодействовать со своим окружением. Правильные ответы: ребенок, агент RL или Джейсон Борн. Агент(RL, не Bourne) — это просто компонент, который принимает решение о том, какое действие предпринять в любой момент времени, которое способствует достижению их цели в обучении с подкреплением.

Окружающая среда — это просто наше окружение в любой момент времени. Это может быть наш дом, рабочее место, город или даже более широкое полотно глобальной экосистемы. Эта среда представляет нам постоянный поток информации, которую мы интерпретируем как наше текущее состояние посредством зрения, обоняния, звука и осязания. Это место, в котором мы находимся, люди, с которыми мы находимся, а также проблемы и возможности, с которыми мы сталкиваемся в любой момент.

Действия — это не что иное, как то, как мы взаимодействуем с окружающей средой. Выбор того, что есть на завтрак, выбор маршрута на работу, перемещение наших ленивых бомжей в спортзал или даже просто существование (не то же самое, что ничегонеделание, кстати). Этот выбор основан на нашем прошлом опыте, руководствуется нашими нынешними обстоятельствами и зависит от ожидаемых результатов наших решений.

Награда? Обратная связь, которую мы получаем от нашего окружения — вкусная еда, поездка без пробок, бесплатная пинта пива или даже разбитое сердце (не все отзывы положительные). Эти награды, как положительные, так и отрицательные, формируют наши будущие решения и поведение, тонко направляя нас к нашим целям, будь то поддержание здорового образа жизни, достижение баланса между работой и личной жизнью, преследование личных увлечений или даже поиск истинной причины нашего существования (я отказываюсь верить, что это 42).

Этот непрерывный цикл восприятия нашего состояния, совершения действий и получения вознаграждения жутко похож на цикл «чувствовать-думать-действовать» в RL.

Механика RL

Теперь давайте углубимся. У каждого из нас есть моральные ценности, руководящие принципы как таковые, которые помогают нам выбирать между правильным и неправильным. Это неписаный свод правил, который постоянно корректируется на основе прошлого и настоящего опыта. Это по своей сути делает нас теми, кто мы есть. Этот свод правил — не что иное, как политика для агента RL, который просто пытается достичь своей цели. С другой стороны, нередко обнаруживаем, что время от времени нарушаем/искажаем собственную книгу правил, что обычно оправдывается «обстоятельствами». Так же, как наши личные правила могут быть основаны на правилах («Я буду тренироваться каждый день») или вероятностных («С вероятностью 50 % я не буду тренироваться сегодня, потому что идет дождь»), правила RL могут быть детерминированными (всегда предпринимать действие A, когда состояние S) или стохастический(выбор из набора действий (A1, A2, A3..), которые имеют собственное распределение вероятностей, когда состояние S).

Понимая, что наши действия могут быть как детерминированными, так и вероятностными, мы обычно можем сгруппировать все наши действия в рутины. В конце концов, мы существа привычки. Мы склонны придерживаться наших зон комфорта, нашего распорядка дня и наших норм. Но ни одна великая история никогда не начиналась из зоны комфорта. Каждое приключение требует выхода за пределы привычного, мыслить нестандартно и идти по менее проторенной дороге, как когда-то написал Роберт Фрост.

«Две дороги расходились в лесу, и я — я выбрал менее проторенную, И в этом вся разница».

Этот тонкий баланс между соблюдением рутины и временным нарушением шаблона является абсолютно необходимым, чтобы выяснить, что работает, а что нет. Это может варьироваться от выбора чего-то нового в меню вашего любимого ресторана до увольнения с бесперспективной работы, чтобы вырваться из крысиных бегов. Этому переплетению исследования и эксплуатации мы также научим нашего агента RL. Для каждого состояния у агента RL будет выбор между выбором действия, которое он должен предпринять на основе своего прошлого опыта, или случайным действием из всех доступных действий, просто чтобы посмотреть, что там происходит.

Удвоив наш философский подход к этому блогу, давайте поговорим об ожидании потенциальных результатов наших решений. Мы взвешиваем будущие выгоды от инвестирования нашего излишка по сравнению с мгновенным удовлетворением от отдыха на выходных на побережье Амальфи. Я имею в виду, кто не хочет увидеть, как горы погружаются в море на побережье Италии? Но теоретически вы могли бы отложить этот побег, инвестировать эти деньги, чтобы пожинать плоды в будущем. Этот способ оценки потенциальных будущих вознаграждений известен как функции ценности в RL. Функция ценности — это эффективный способ определить ценность пребывания в том или ином состоянии путем измерения потенциальных будущих вознаграждений, которые мы можем получить от пребывания в этом состоянии. Все эти лайфхаки, которые мы видим на наших платформах в социальных сетях о поиске работы своей мечты, подработке с пятизначной суммой, уходе на пенсию в 30 лет и т. д., — это просто их собственные функции ценности, изложенные в удобоваримой для человека форме. Но помните, наше собственное текущее состояние может сильно отличаться от их состояния, а наше окружение может сильно отличаться от их состояния. Что-то помнить в следующий раз, когда вы столкнетесь с такими сообщениями. Это также подтверждает важность попытки создать среду для нашего агента RL как можно ближе к реальной среде, в которой будет развернут агент.

Теперь, когда мы увидели, что представляет собой агент и что им движет, внутреннюю работу наших действий, что мы делаем и почему мы это делаем, давайте немного сосредоточимся на окружающей среде. Давайте предположим, что полевой агент овладел полным контролем над своим телом и разумом, либо приобретя все камни бесконечности, либо приняв одну из этих таблеток NZT-48, либо даже с помощью медитации. Означает ли это, что любые и все действия, предпринятые нашим агентом, всегда будут приносить плоды, как предполагалось (даже действия по исследованию)? Не обязательно. На самом деле не существует такой теории всего, которая оказалась бы верной для любой ситуации. По крайней мере, пока. Это приводит к ситуациям, когда наше окружение не вознаграждает нас так, как мы ожидаем. Например, тот же маршрут, по которому мы возвращаемся домой после долгого дня, который изначально был выбран из-за отсутствия пробок, может задержать нас в пути на час или около того из-за невидимых факторов, таких как аварии, отклонения, протесты и т. д. Следовательно, нам нужно шагнуть в мир вероятностей, где шансы застрять в пробке невелики, но никогда не равны нулю. Точно так же, чтобы в достаточной степени имитировать реальную среду для нашего агента RL, мы можем создать стохастическую среду, где результат указанного действия может привести к ряду новых состояний, каждое из которых имеет свое собственное вероятностное распределение, в отличие от детерминированной среды, которая всегда приводит только к 1 состоянию при заданном действии.

Например, шахматная среда всегда детерминистична: когда вы перемещаете пешку с D2 на D4, эта пешка со 100% уверенностью приземлится на D4. Он не может споткнуться или пробраться в любое другое пространство. С другой стороны, самоуправляемый автомобиль всегда должен учитывать различные факторы: от поведения других водителей, светофоров и пешеходов до обледенелых дорог, разливов нефти или даже вторжения инопланетян на дороге.

Обучение с подкреплением в реальной жизни

Приведенные выше 2 примера являются одними из очень немногих реализаций RL. RL уже зарекомендовала себя в игровой индустрии, позволив компьютерной программе победить профессионального игрока в го, который первым победил чемпиона мира в го. Он также используется в транспортной отрасли, где он может предоставить беспилотному автомобилю возможность учиться на основе собранных данных и постоянно обновлять политику вождения. Он также используется в других областях, таких как автоматизация роботов, НЛП, рекомендательные системы и так далее.

Заключение

Таким образом, мы рассмотрели все основные термины, с которыми можно столкнуться в сфере RL. Итак, когда мы углубимся в RL, помните следующее: RL — это не просто еще одна вычислительная техника. Это цифровое эхо нашего ежедневного танца с жизнью. Когда мы учим машины учиться с помощью RL, мы можем просто немного лучше понимать наши собственные процессы обучения.

В следующем посте мы увидим, как создать собственную версию игры ColorSort на Python и как мы можем обучить агента, чтобы он начал перехитрить людей, решая игру за меньшее количество ходов, чем мы, и все это с помощью обучения с подкреплением.