Говорят, что многие концепции Data Science вдохновлены человеческой жизнью, психологией, окружающей средой и тем, как мы с ней взаимодействуем. Например, в обучении с подкреплением (RL) агент учится, взаимодействуя в среде и максимизируя вознаграждение, которое он получает после выполнения действий при переходе из одного состояния в другое.

Разве это не очевидно? однако в этом блоге я намерен поделиться совершенно другой точкой зрения и своими собственными причинами, по которым мне нравится обучение с подкреплением.

Когда я начал больше узнавать об RL как о концепции, для меня это была просто еще одна тема, полная сложных алгоритмов, интуитивных представлений, подкрепленных математикой, и артефактов исследований. Но постепенно я начал соотносить свой реальный жизненный опыт с тем, что узнал. В конце концов я понял, что на самом деле решаю многие свои жизненные проблемы, используя концепции RL.

Позвольте мне поделиться тремя основными уроками, которые я часто применяю в своей жизни из RL.

1 Функции ценности — функции состояний (или пар состояний и действий), которые оценивают, насколько хорошо для агента находиться в заданном состоянии, являются такой хорошей мерой, которую можно применить к собственной реальной состояния жизни.

Мы часто оказываемся в «состояниях», которые не представляют ценности, но приносят нам мгновенное удовлетворение. Например, мы просто смотрим телевизор, проводим время в социальных сетях или бездельничаем без причины. Что, если мы можем связать функцию значения с каждым состоянием и действиями для перемещения между этими состояниями. Мы можем обучить наше подсознание политике, которая оптимальна для того, чтобы держать нас в более выгодном состоянии в долгосрочной перспективе. Таким образом, мы можем определить состояния, которые «хороши» для нас, и, следовательно, можем постоянно пребывать в таких состояниях.

Разве это не еще один хороший способ оставаться в дисциплине и постоянно помнить о своих действиях.

2Ставка дисконтирования.Агент обучен максимизировать ожидаемую отдачу, где отдача обычно представляет собой сумму вознаграждений, которые агент получает от среды в каждом состоянии, принимая определенное действие. Математически возврат G в момент времени t определяется следующим образом:

где T — последний временной шаг. Приведенное выше уравнение подходит только для случаев, когда в момент времени T существует конечное состояние, например, в игре. Для продолжающихся задач, где конечного состояния практически нет, агент пытается выбрать действия так, чтобы сумма уцененных вознаграждений, которые он получит в будущем, была максимальной. Таким образом, он выбирает At, чтобы максимизировать ожидаемую дисконтированную доходность:

Где 𝛾 — параметр, 0 ⩽ 𝜸 ⩽ 1, называемый учетной ставкой, он определяет текущую стоимость будущих вознаграждений.

Я считаю учетную ставку аналогом настойчивости в реальной жизни. Учтите, что если 𝛾 равно 0, то агент называется близоруким, поскольку он просто будет рассматривать последнее полученное вознаграждение как доход и попытается максимизировать его, однако, если оно близко к 1. , то агент становится дальновидным, поскольку затем пытается максимизировать вознаграждение, полученное в долгосрочной перспективе.

На самом деле для целей, требующих последовательных усилий, мы часто не выдерживаем, а отвлекаемся на состояния, которые дают нам немедленное удовлетворение. Например, чтобы достичь состояния хорошего самочувствия, нужно соблюдать режим ежедневных тренировок, сбалансированного питания и качественного сна, но в большинстве случаев мы отвлекаемся и в конечном итоге скатываемся к ленивому образу жизни, который дает нам мгновенное вознаграждение. Таким образом, становится необходимым выбрать 𝜸 таким образом, чтобы мы всегда проявляли настойчивость, чтобы максимизировать нашу прибыль в долгосрочной перспективе.

3 Оптимальность и аппроксимация. Основная цель агента, обученного RL, — изучить оптимальную политику, с помощью которой он может проходить через различные состояния с максимальной отдачей. Для этого агент применяет методы исследования и эксплуатации, т. е. пробует новые действия в состоянии или может просто выполнить уже использованное действие в данном состоянии. Таким образом, оптимальная политика — это та политика, при которой можно сказать, что агент получает максимальную отдачу, и, следовательно, любой такой агент, если узнает, что оптимальная политика действовала бы действительно хорошо. Однако на практике это происходит редко только потому, что требует больших вычислительных мощностей и особенно памяти.

Я считаю, что оптимальность аналогична балансу в реальности, и точно так же, как агенту трудно добиться успеха с точки зрения оптимальной политики для сложных и непрерывных сред из-за вычислительных потребностей, это трудно и для нас, людей, поскольку у нас есть ограничения с точки зрения времени, энергии и памяти. Таким образом, приближение и баланс становятся ключом к успеху. Например, очень важно поддерживать баланс между работой и жизнью, чтобы оставаться счастливым, здоровым и спокойным в жизни.

Подводя итог, можно сказать, что обучение с подкреплением — отличный предмет не только для изучения, но и как отличный источник для применения в жизни. Кроме того, агент, обученный RL, обладающий способностью «рассуждать», безусловно, будет настоящей когнитивной системой.

Ссылка: «Обучение с подкреплением — введение». Авторы: Ричард С. Саттон и Эндрю Г. Барто.