Готовы к обучению с подкреплением?

Все дело в будущем и технологиях

Что такое обучение с подкреплением?

Обучение с подкреплением является частью моделей машинного обучения для принятия последовательных решений. Он предпримет действия, которые могут максимизировать награду в любой ситуации. Агенты узнают, как достичь цели в своей среде, основываясь на вознаграждении за каждый шаг и принятом ими решении. В качестве примера рассмотрим шахматную игру, стратегическую настольную игру для двух игроков на клетчатой доске. Цель состоит в том, чтобы компьютер выиграл игру с наивысшим баллом, основанным на самом быстром шаге на доске. Итак, что сделает компьютер для достижения цели?

Во-первых, компьютер будет использовать метод проб и ошибок для решения проблемы. Для достижения цели этот агент искусственного интеллекта получит вознаграждение или штраф в зависимости от предпринятого действия. Награда дается, если они приняли правильное решение. Тем не менее, они будут наказаны за неправильный ход фигуры - короля, ферзя, ладьи, коня, слона или пешки. Можно сказать, что это неправильное решение, если на шаг приближается мат нашего короля. Компьютер будет учиться, пробуя все возможные ходы, исходя из общего вознаграждения, рассчитанного из вознаграждения, и штрафов, которые вычитают вознаграждение компьютера. Таким образом, компьютер станет умнее с шагами, которые когда-либо предпринимались ранее.

Успех в создании ИИ стал бы крупнейшим событием в истории человечества. К сожалению, это может быть и последнее, если мы не научимся избегать рисков . - "Стивен Хокинг"

Типы обучения с подкреплением

Как правило, мы можем разделить обучение с подкреплением на два типа: положительное и отрицательное. Положительное подкрепление определяется, когда событие положительно влияет на поведение агента. Положительный эффект может увеличить силу поведения, стимулируя агента делать правильные поступки. Пример, который мы можем найти в повседневной жизни, - это когда родители преподносят нам подарки, когда мы получаем хорошие оценки в школе.

В противном случае отрицательное подкрепление определяется, когда событие, происходящее из-за определенного поведения, изменяет поведение агента из-за устранения или избежания негативных последствий в будущем. Например, Youtube уменьшит количество предлагаемых видео, которые нам часто не нравятся. Когда мы говорим об обучении с подкреплением, мы должны помнить, что цель этого типа модели - попытаться улучшить поведение агента, чтобы он приблизился к цели, которую мы хотим достичь.

Проблемы с обучением с подкреплением

Основная проблема, с которой сталкивается обучение с подкреплением, заключается в том, как мы имитируем среду для агента. Сложности подготовки среды моделирования зависят от того, насколько сложную задачу будет выполнять агент. Если мы хотим создать среду моделирования для мини-игр, таких как шахматы, это будет довольно просто. Однако все будет иначе, если мы создадим сложную среду моделирования для автономного автомобиля.

Мы должны подготовить модель, которая почти не отличается от оригинала. Мы должны сделать это максимально реалистичным, прежде чем машина будет эксплуатироваться на реальной улице. Модель должна понять, как быстро двигаться в соответствии с ограничением скорости в тихом месте. Более того, он должен выяснить, как использовать тормоз и предотвратить аварию. Следует избегать процента столкновений с автомобилями вокруг модели. В результате модель научит агента безопасно управлять автомобилем и, насколько это возможно, избежать штрафов или несчастных случаев, которые могут возникнуть.

Резюме

Обучение с подкреплением - это будущее машинного обучения, которое может сделать наш мир более инновационным и творческим. Это будет наиболее вероятный способ сделать творческую машину и инструменты. Ожидается, что развитие обучения с подкреплением будет расти, так что оно поможет сделать человеческую жизнь более автоматической и простой.

Как технолог я вижу, как ИИ и четвертая промышленная революция повлияют на все аспекты жизни людей. - Фэй-Фэй Ли, профессор компьютерных наук Стэнфордского университета.

Источник:

[1] Kaelbling, Leslie P .; Littman, Michael L .; Мур, Эндрю В. (1996). « Обучение с подкреплением: обзор ». Журнал исследований искусственного интеллекта

[2] Блавей Осинский и Конрад Будек. (2018). Глубокое обучение, машинное обучение, обучение с подкреплением. Https://deepsense.ai/what-is-reinforcement-learning-the-complete-guide/

Готовы к обучению с подкреплением?

Что такое обучение с подкреплением?

Типы обучения с подкреплением

Проблемы с обучением с подкреплением

Резюме

Вопросы по теме