ML 101: SARSA против Q-Learning

Два наиболее популярных алгоритма, используемых для обучения ИИ. для решения задач называются SARSA и Q-Learning. Если вы хотите увидеть детали их реализации, вы можете найти их на других сайтах, таких как этот. В этой статье вы увидите, чем они отличаются, и когда эта разница имеет значение.

Представьте себе следующий сценарий. Вы и ваша вторая половинка живете в небольшой деревне под названием Смоллпорт. В эти выходные вы решили отправиться в путешествие из Смоллпорта в Литтлтон, что примерно в 300 км. Вы уже ездили в эту поездку в 90-х, и счастье этих прекрасных выходных запечатлелось в ваших воспоминаниях. Вы также знакомы с дорогами и автомагистралями в этом районе и считаете, что до Литтлтона вы доберетесь менее чем за 3 часа.

В пятницу днем вы отправились в путь. Через полчаса в дороге вам обоим становится скучно, и вы решаете, что вместо этого было бы интересно попробовать одну из боковых дорог. Где-то в стороне от шоссе может быть великолепный вид на горы, и кто знает, возможно, вы также быстрее доберетесь до места назначения. Вы поворачиваете машину к следующему выходу, который видите.

Обход оказывается ошибкой. Мало того, что нет никакого вида, но вы лопнете шину на ухабистых дорогах с плохим покрытием, и вам придется потратить час, чтобы заменить ее. К тому времени, когда вы закончили увозить лопнувшую шину, уже был поздний вечер, поэтому вы ускоряетесь, чтобы добраться до Литтлтона к закату. Вы находите дорогу обратно к шоссе и жмете педаль газа до упора.

Ваш щедрый прирост скорости не останется незамеченным местным дорожным патрулем. После одного строгого предупреждения и дорогого билета вы в полночь мчитесь в Литтлтон в изнеможении. Ты и твой С.О. вздохните о поездке и торжественно пообещайте друг другу, что отныне будете держаться шоссе.

Месяц спустя вы снова в Смоллпорте. Ты и твой брат встречаетесь у вас дома. Он упоминает, что подумывает об однодневной поездке в Литтлтон в эти выходные.

«Хочешь пойти с нами?» — спрашивает он.

Что вы ответите?

Конечно, для вас недавняя поездка в Литтлтон была несчастной, но отчасти это, вероятно, было связано с вашим неортодоксальным маршрутом. Может быть, если бы вы придерживались шоссе, поездка сложилась бы очень хорошо.

На этом этапе вы можете принять два подхода:

SARcastic: Можно сказать, что ваша последняя поездка в Литтлтон совсем не веселая. Вы ему рассказываете, какой вид был неутешительный, дороги были в рытвинах, а гаишники были беспощадны.

Довольно мило. Вспоминая свою предыдущую поездку в 90-е, вы могли бы сказать своему брату, что поездка совершенно прекрасна, и вам понравится проводить с ним день.

В первом случае ваш недавний опыт поездок между городами преподал вам определенный урок: никогда больше не ездить в Литтлтон. Как упоминалось выше, это отношение, более пессимистическое, и является тем, как работает SARSA. Урок, который вы усвоили, был основан на том, что вы на самом деле сделали, и на том, что произошло в результате. Этот тип обучения называется на основе политики, что означает, что то, что вы изучаете, является результатом вашей фактической «политики действий», включая ваши исследования.

Во втором случае память о более ранней поездке, той, что была в 90-х годах, все еще резонирует в вашей голове. Вы полагаете, что «если бы я не выбрал этот крюк, поездка была бы прекрасной».

Этот последний подход, который, возможно, является более оптимистичным, заключается в том, как работает Q-Learning. Вы не позволите ни одному неудачному эксперименту испортить вам то, что в противном случае могло бы стать отличным путешествием. Этот тип обучения, как вы могли догадаться, называется вне политики, что означает, что вы изучаете, основано не на ваших реальных действиях (вашей политике), а на том, какой путь был бы лучшим, если бы вы не пошли в обход.

Обратите внимание, что в обоих случаях ваша политика включает в себя все действия, которые вы предприняли, включая исследование. Ваша «политика» — это ваш подход к жизни. Это то, как вы решаете, что делать в той или иной ситуации. В сценарии вождения ваша политика зависит от того, насколько вы осторожны или склонны к риску. Если бы вы были более осторожны, вы, возможно, никогда не пошли бы в обход.

Самая большая разница между SARSA и Q-Learning заключается в том, что они извлекают уроки из своих экспериментов. SARSA предпочитает учиться на реальных результатах. SARSA думает: «должен был бы, должен был бы… не знаю, что бы случилось, если бы я просто выехал на шоссе. Все, что я знаю, это то, что произошло. “

Как вы могли догадаться, в тех случаях, когда водитель никогда не пытается срезать путь и следует только лучшему маршруту, который он знает, обучение как по политике, так и вне политики превращается в одно и то же, поэтому SARSA и Q-Learning также будут такой же.

В примере с вождением, который я описал, большинство из нас, вероятно, выбрали бы оптимистический подход (Q-Learning) и, за исключением любого посттравматического стресса, согласились бы отправиться в путешествие с нашим братом. Были ли случаи, когда вы бы заняли более пессимистическую позицию (САРСА)?

Чтобы ответить на этот вопрос, вернемся к нашему путешествию. Как упоминалось выше, вы были в Литтлтоне только один раз, и это было более 20 лет назад. Движение в этом районе может быть очень переменчивым. Эта романтическая поездка может не отражать все поездки, точно так же, как ваш объездной путь был случайностью. На дороге могли быть тяжелые строительные работы, и ваш объезд, хотя и жалкий, мог на самом деле сэкономить вам время. Поскольку на этот раз вы на самом деле не ездили по шоссе, вы не всегда знаете, что они из себя представляют.

Если условия дорожного движения в вашем районе очень непредсказуемы, вы можете быть менее уверены в поездке с братом. И наоборот, если трафик на шоссе относительно постоянный, вы, вероятно, доберетесь до места назначения вовремя. Чем более предсказуем мир, тем более оптимистичными могут быть ваши решения. Мы называем такой мир детерминированным, что означает, что вы можете предсказать, что произойдет, когда вы предпримете определенное действие в конкретной ситуации.

С другой стороны, если вы живете в постоянно меняющемся мире — если почти каждое лето дороги закрыты из-за строительных работ (как в моем городе), а движение транспорта резко колеблется, — то вы бы с большей нерешительностью рекомендовали поездку на выходные. . Мы называем такие миры стохастическими, что означает «недетерминированные» или несколько непредсказуемые*.

*Примечание: мир не может быть совсем непредсказуемым, т. е. случайным, иначе вы не смогли бы ничего сказать ни о каких будущих поездках, даже если у вас все получилось.

Таким образом, есть три вещи, которые мы учитываем, когда учимся на своих действиях:

Насколько предсказуем мир? (детерминированный или стохастический)
Насколько экспериментальны мои действия?* (держитесь шоссе или время от времени сворачивайте в объезд)
Должен ли я принимать будущие решения, основываясь на том, что произошло на самом деле, или на том, какой образ действий я считаю лучшим? (вне политики или политики, SARSA против Q-Learning)

* Как упоминалось ранее, оба алгоритма, используемые для SARSA и для Q-Learning, открыты для исследования, т. е. для поиска коротких путей. Два алгоритма решают, какое действие предпринять, на основе алгоритма принятия решения, который называется ε-жадный (произносится эпсилон-жадный). ε-жадность, как и у большинства из нас, предполагает умеренный риск. В большинстве случаев ε-жадный выбирает наиболее известный путь по памяти (в нашем случае это шоссе); но иногда он пробует что-то новое и случайное.

Первоначально опубликовано наhttps://medium.com/@yervantk/the-road-less-traveled-683c3e7407c7 31 января 2019 г.

ML 101: SARSA против Q-Learning

Вопросы по теме