О функциях ценности, теории жизни и гимнастике по уравнению Беллмана

Есть ли у обучения с подкреплением то, что нужно, чтобы привести нас к общему искусственному интеллекту? Универсальны ли функции ценности для описания любой проблемы? Поддается ли описанию проблема интеллекта? Вопросы, вопросы…

Ценностные функции, двигатель обучения с подкреплением. Ценностные функции, краеугольный камень интеллекта? В классике обучения с подкреплением «Введение в обучение с подкреплением» даже Саттон и Барто заявляют следующее:

Мы придерживаемся позиции, что ценностные функции важны для эффективного поиска в пространстве политик.

А что такое политики? Политики - это решение нашей проблемы последовательного решения. Теперь я собираюсь высказать здесь кое-что смелое. Проблемы последовательных решений окружают вас повсюду, ваша жизнь - это проблема последовательных решений. Посмотрите на это так: каждый день, начиная с того момента, как вы встаете, вы должны решать (последовательно), как будет выглядеть ваш день, на основе новых данных, которые вы получаете. Если вы можете отфильтровать шум из данных, вы наверняка сможете узнать что-то полезное. Обобщенно на этом неоднозначном изображении:

Таким образом, очевидно, что мы можем рассматривать все как проблему последовательного принятия решений. И какова цель обучения с подкреплением? Для решения задач последовательного принятия решений. По-видимому, это делает обучение с подкреплением (в самом широком смысле) универсальным инструментом для решения проблем. Конкретно каждый шаг несет в себе некоторую награду (или затраты при оптимальном управлении). Сумма всех вознаграждений - это возврат, причем все вознаграждения являются вознаграждениями в течение определенного срока или вознаграждениями в течение бесконечного горизонта. Если взять траекторию τ, она выглядит так:

Это просто, но действительно ли это то, на что мы хотим взглянуть? Хммм… Хорошо, у нас есть возврат по траектории. Но в чем заключается функция вознаграждения? Погода? Расстояние от земли до солнца? Сколько птиц видели за день? Что это? Ответ зависит от проблемы, в жизненной игре, может быть, вы можете сказать все свои сенсорные входы и свое внутреннее состояние. Так что, по правде говоря, это зависит от проблемы. Возможно, верхнее описание возврата - ерунда. Возможно, правильнее думать об этом так:

Может быть, в этом есть немного больше смысла. У нас есть какое-то состояние на входе, может быть, мы выпили немного пива, съели немного шоколада, это немного увеличивает нашу награду. Но в этом все же есть что-то неудовлетворительное. Откуда, черт возьми, награда. От высшей силы? Возможно, эта формулировка имеет больше смысла, исходя из загадочного Ω:

На этом этапе я чувствую необходимость написать короткий отказ от ответственности:

Отказ от ответственности: нотация Ω - это в значительной степени мои безумные мысли, это не из какого-либо учебника по обучению с подкреплением.

Кто определяет, что необходимо решить? Это надоедливый Ω, могущественный всезнающий, движущая сила существ, сущностей. Предопределено ли Ω? В этом и заключается суть действующего механизма в уравнении.

Если подумать, где же в этом уравнении актер? Да, если у нас есть траектория, мы можем ее оценить, но, в конце концов, мы хотим оценить политику, действующего лица. Возможно, эта формулировка более удовлетворительна, когда мы вводим актера π. Далее допустим, что траектория уходит в бездну, в бесконечность. Давайте также заглянем в будущее, т.е. мы хотим оценить нашего актера от текущего состояния к будущему:

Мы называем эту функцию V функцией ценности состояния с учетом политики π. γ здесь просто какая-то скидка между [0, 1], не записывать ее равносильно установке на 1. Почему V отличается от возврата по траектории? Ну, для начала, это зависит от политики π. В возвращении R дело уже сделано, у нас есть траектория, нам просто нужно вставить ее в функцию вознаграждения и подвести итоги. Функция ценности V зависит от самой политики, и говорить о траекториях, которые не были бы результатом политики π, не имеет никакого смысла в случае функции ценности V. Это довольно приятно, теперь у нас фактически есть почти все крутые вещи, политика π, которая определяет наше действие a, и вознаграждение, которое на самом деле может быть функцией действия.

Почему награда зависит от действия? Что ж, может тебе действительно нужно что-то делать, чтобы что-то получить. Хотя выполнение чего-либо может быть неудовлетворительным, то, что вы получаете, может быть действительно удовлетворительным. Или, может быть, работа приносит удовлетворение, а получение неудовлетворительно, например, есть и толстеть. Короче говоря, мы сделали наш возврат R специфичным для политики π, и это называется функцией значения V, которая, конечно, зависит от действующей политики π.

Невероятно, но приведенное выше невинное уравнение содержит так много предположений о детерминизме, и оно по сути неверно. Он предполагает детерминированную политику, он предполагает детерминированные переходы от состояния к следующему состоянию при заданном действии. С такими предположениями, это было бы верно. Но чем меньше у нас предположений, тем лучше, не так ли? Также трудно поверить, что в реальном мире все работает именно так. В действительности мы можем получить или не получить то, что хотим, в зависимости от того, что мы предпринимаем. Мы можем предпринять или не предпринять действия, которые мы бы предприняли в среднем. Вот что мы собираемся делать. Мы собираемся втиснуть весь этот вероятностный бизнес в математическое ожидание, чтобы избежать некоторых неприятных обозначений:

Естественно рассматривать V как ожидаемую доходность с учетом политики, здесь больше не о чем говорить. Но обратите внимание, что мы сделали здесь что-то нелепое, что-то преступное ... Мы втиснули полученное распределение состояний динамики перехода и политику, заданную текущим состоянием, в η. Но не расстраивайтесь, это происходит постоянно, делает его более читабельным, упрощает обозначения. η может быть действительно неприятным в зависимости от того, как выглядит политика, как выглядит динамика и так далее. Таким образом, мы просто допускаем всевозможные сумасшедшие вещи, происходящие в нашем распределении индуцированных состояний, надежно упакованных в η. Давайте сделаем что-нибудь еще более нелепое, давайте разделим это на два ожидания:

Теперь η необходимо обусловить s на временном шаге t. Нелепо. Обратите внимание на другую вещь, обратите внимание на рекурсивность в уравнении ... Почему нам разрешено писать это? Давайте подумаем об этом на секунду. Допустим противное, что нам не разрешено это писать. Что бы это значило? Это означало бы, что дополнительная траектория траектории, проистекающая из политики, по сути, не является частью всей траектории. Это, конечно, не может быть правдой!

Что, если мы хотим избавиться от первого ожидания? Таким образом, мы приходим к функции Q-значения. Избавление от ожидания приводит к следующему:

Да, это один шаг, который становится определенным на временном шаге t, это так просто. Это здорово, теперь мы задаемся вопросом, как выглядит оптимальная политика? Теперь мы можем записать это красиво и просто, это выглядит так:

Таким образом, оптимальная политика, очевидно, максимизирует истинное (оптимальное) значение функции Q. Довольно круто, ха? Но я действительно упрям. Я хочу полностью избавиться от буквы V в уравнении Q. Может быть, я смогу написать это так:

Обратите внимание, что многие детали здесь опущены. Но, надеюсь, понятно, как проходит гимнастика. Также важно помнить, что π является частью η. В ожидании всегда есть какая-то политика, иначе это не имело бы смысла.

Еще раз обратите внимание, это рекурсия. Есть необычная причина, по которой мы можем использовать эту рекурсию в определении. Если мы заменим π на π *, то мы получим максимальное значение согласно определению π *. Эта причудливая причина называется принципом оптимальности, что в значительной степени является простым здравым смыслом, но, тем не менее, мы должны поблагодарить г-на Ричарда Беллманна за его красивую формулировку. Возьмите траекторию τ, полученную в результате оптимальной политики, и возьмите любую суб-траекторию τ ’. Оптимальна ли под-траектория оптимальной траектории? Конечно, это является. Если вы проводите прямую линию между точками A и B, выберите любую точку C. Смею вас найти более короткий путь к C от A, чем линия AC. Может быть, в какой-нибудь параллельной вселенной это возможно.

Но меня все еще беспокоит вопрос, откуда берется Ω. Кто определяет награду? У меня нет ответа на этот вопрос. Может, в самом вопросе нет никакого смысла. Если мы обратимся к примеру людей, то можно сказать, что существуют всевозможные представления о могущественной Ω, которая дает людям то, для чего они должны оптимизировать. Это исходит от Бога? Является ли это результатом простых привычек еды, питья и сна, так называемых основных человеческих потребностей? С другой стороны, равно ли Ω π, можем ли мы полностью контролировать Ω? Если мы можем, делает ли это нас умными? Если мы не можем, что же тогда делает нас умными?

Кто в жизненной игре подскажет, что вам нужно решить? Я надеюсь, что вы сами являетесь Ω. Подумайте об этом, этот алгоритм между вашими ушами оптимизирует для чего-то. Это именно оптимизация для функции вознаграждения, которую вы ему даете, или, точнее говоря, вашей «парадигмы» . Время для мотивационной цитаты:

Вы формируете свою собственную функцию вознаграждения, так что лучше сформулируйте ее хорошо.

И поверьте мне, термин «формирование вознаграждения» часто используется в исследовательском сообществе. Если бы я посчитал, сколько раз я слышал термин «формирование вознаграждения», я бы сошел с ума. Но это как бы интересно. В обучении с подкреплением награда выдается автоматически от третьей стороны. Да, конечно, награда также может быть скудной, либо 1, либо 0 (либо вы сделали это, либо нет) в конце вашего горизонта оценки. Но все же, говоря философски, награда дается от того, кто дает задание, она присутствует в вашем окружении (системе). Итак, учитывая функцию вознаграждения задачи, вы решаете ее, используя какую-то форму для определения долгосрочного вознаграждения. Где постановка задач для разумных существ?

Глядя на всемогущую Ω, возникает вопрос (по крайней мере, для меня). Является ли интеллект результатом сознания? Или интеллект не связан, то есть он является результатом того факта, что политику можно оптимизировать для любого Ω. Тогда действительно ли алгоритмы обучения с подкреплением действительно разумны, но не осознают? Или следует Ω = π? Это меня очень беспокоит.

Фактически, оптимальность Q-обучения гарантируется в дискретных пространствах состояний и действий с бесконечным числом посещений состояний. Другими словами, мы получаем оптимальное Q * при бесконечном посещении состояний. Лично я считаю, что «оптимальный» здесь глупое слово, лучше было бы слово «актуальный» или «настоящий». Потому что мы хотим рассчитать фактическую ожидаемую доходность полиса. Политика, оптимальная для фактического Q, - это оптимальная политика π *. Для меня это звучит довольно разумно, и это достижимо с помощью этого простого итеративного механизма начальной загрузки:

Где δ - некий параметр скорости обучения. Ах, но подожди. Q специфичен для политики, не так ли? Итак, мы должны написать это так:

При бесконечном посещении состояния это сходится к истинному значению Q для политики π. Если у нас есть политика, которая берет максимум над Q, и у нас есть бесконечное количество посещений состояния, эта политика будет оптимальной политикой π *. Факт бесконечного государственного посещения имеет доказательство. Но интуитивно это тоже имеет смысл. Если данные есть, то у вас обязательно будет хорошая оценка, то есть в двух словах.

Очевидно, что бесконечное - громкое слово в отношении состояний, а в отношении действий ожидать нереально. Мы еще не решили проблему интеллектуальных машин (по крайней мере, с помощью обучения с подкреплением). Хотя формулировка RL хорошо вписывается в поведение последовательного принятия решений, это допускает преувеличенное философствование (как в этой статье здесь). Некоторые исследователи утверждают, что речь идет только о дополнительных вычислениях, что алгоритмы уже существуют. Другие утверждают, что нам нужны более совершенные алгоритмы. Однако проблема Ω остается нерешенной, это открытый вопрос. Развивается ли Ω со временем? Откуда это у разумных существ? Кто знает.