Давайте начнем с основ!

Что, черт возьми, такое обучение с подкреплением (RL)?
Определение для 🤖 -› Обучение с подкреплением — это тип машинного обучения, который фокусируется на том, как агент может научиться принимать оптимальные решения или принимать соответствующие решения. действия в окружающей среде, чтобы максимизировать его совокупное вознаграждение.

Теперь давайте разберемся с RL для нас, людей. Позвольте мне привести вам пример, с которым вы, возможно, знакомы -›
Представьте, что вы ребенок (поверьте мне, это становится круто!), и, конечно, если вы ребенок, вы ничего не знаешь о том, что тебя окружает, но знаешь только одно, что Мама Мама означает Вода😂!!
Предположим, Вода держится на расстоянии! Теперь, что бы вы сделали, чтобы получить воду (предположим, кричать нельзя!), вы бы попытались правильно получить эту бутылку воды? Для этого вы сделаете несколько маленьких шагов и доберетесь до этой бутылки с водой, столкнувшись с некоторыми трудностями, поскольку вы мало знаете о своем окружении.

Читая эту небольшую историю, вы, возможно, представляли, как ребенок изо всех сил старается получить эту маму-маму 😂.

Но чего вы, возможно, не представляли, так это того, что я научил вас самым основам обучения с подкреплением!

Агент (Малыш 007😂) -› Сущность, которая взаимодействует с окружающей средой, получает наблюдения и предпринимает действия, чтобы получить награду.

Окружающая среда (детское окружение) –> внешняя система, в которой работает агент.

Награда (обратная связь) – сигнал обратной связи, указывающий, сделал ли агент правильный шаг в правильном направлении (положительное вознаграждение) или сделал неверный шаг (отрицательное вознаграждение).

Цель(Мама-Мама) – Желаемая цель, которую хочет достичь агент.

Надеюсь, вы чему-то научились, я тоже буду ждать ваших предложений 😄🙌