Введение в глубокое обучение с подкреплением

Краткое введение в одну из самых интересных областей искусственного интеллекта.

Каждый живой вид стремится к счастью в жизни. Когда вы наказываете ребенка за его действия, он чувствует себя плохо и избегает делать то же самое. Если вы подарите ему улыбку или небольшой подарок, он поймет, что его действие уместно, и продолжит делать то же самое, чтобы снова получить вознаграждение. Тот же шаблон применим и к животным. Путем проб и ошибок собака учится выполнять ваши команды. Собаку вознаграждают объятиями или едой, когда она совершает правильное действие, в противном случае дрессировщик наказывает животное. Собака узнает, какое действие нужно предпринять для каждой команды, чтобы впредь максимизировать сумму вознаграждения. Глубокое обучение с подкреплением — это подход в области компьютерных наук, который изучает проектирование и создание агентов машинного обучения, которые могут обучаться, получая поток данных, действуя в среде и используя для обучения метод проб и ошибок.

Агенты обучения с подкреплением (RL) учатся через взаимодействие с окружающей средой. Обучение с подкреплением не требует помеченных данных, в отличие от контролируемого обучения, и не требует разработки или сбора данных. Обучаемый называется агентом в RL из-за его зависимости от взаимодействия. В RL в основном должен быть предоставлен сигнал вознаграждения. Этот сигнал принципиально отличается от меток в контролируемом обучении. Сигнал вознаграждения связан с достижением определенного состояния, например достижения места или победы в игре. Большинство отраслей, таких как неврология, компьютерные науки и экономика, хотят решить проблему оптимального выбора действий. Окружающая среда пытается подкрепить или воспрепятствовать определенному поведению. Агент пытается найти оптимальный набор действий для решения конкретной задачи.

В обучении с подкреплением ваше немедленное решение может повлиять на ваши решения в этой функции. Возможность влиять на окружающую среду значительно усложняет процесс принятия решений. Наш агент просто не может выбрать действие, которое приносит максимальное немедленное вознаграждение для текущего состояния. Агент должен рассмотреть характерные последствия своих действий и принять соответствующее решение.

Архитектура задачи последовательного принятия решений

В обучении с подкреплением у нас есть лицо, принимающее решение, называемое агентом. Агент находится в среде, в которой агент не имеет полного контроля. Роль лица, принимающего решения, в этом контексте проста: принятие решений. Во-первых, агент взаимодействует с окружающей средой. Тогда среда реагирует на действие агента. Агент получает обратную связь и что-то улучшает в своем поведении. Действия агентов могут оказывать влияние на окружающую среду. Это делает последствия недетерминированными. Например, когда вы готовитесь к экзамену, вы не можете каждый раз получать один и тот же результат. Ничто не может гарантировать, что вы сдадите экзамен или потерпите неудачу. Даже если вы очень усердно учитесь, нет уверенности, что вы преуспеете.

Агент может иметь или не иметь доступ к точному состоянию среды. Например, если агент играет в покер, он, следовательно, не может получить доступ к раздаче своих противников; он должен принимать решения, используя свои ограниченные наблюдения в окружающей среде. Однако в большинстве игр Atari агент может получить доступ к точному состоянию своего противника (здоровье, способности, ограничения и т. д.); следовательно, процесс принятия решений становится проще. Наблюдение агента равно состоянию только в том случае, если агент имеет полный доступ к точному состоянию среды. В случае с покером окружающая среда частично наблюдаема; поэтому агент не может учитывать точное состояние в процессе принятия решения.

В дополнение к наблюдению агент также получает сигнал вознаграждения из окружающей среды. Награда привлекает большое внимание исследователей. Недавно было проведено исследование, в котором изучались способы сделать вознаграждение зависящим не только от окружающей среды, но и от чего-то внутреннего для агента. Звучит захватывающе. Мы увидим, что произойдет!

Почему мы говорим «глубокое обучение с подкреплением», а не «обучение с подкреплением»?

Глубокое обучение с подкреплением использует несколько уровней мощных аппроксиматоров функций для решения сложных последовательных задач принятия решений.

Наиболее популярное использование глубокого обучения с подкреплением (DRL) - это использование глубокого обучения для аппроксимации пространства состояний больших задач обучения с подкреплением. Делая это, мы можем решить проблемы RL, которые раньше было невозможно решить. Самая захватывающая разработка в сообществе DRL — статья, опубликованная Deep Mind.

Статья представляет AlphaGo Zero, последнюю эволюцию AlphaGo, первой компьютерной программы, победившей чемпиона мира в древней китайской игре Го. Зеро еще более силен и, возможно, является самым сильным игроком в го в истории.

Предыдущие версии AlphaGo изначально обучались на тысячах любительских и профессиональных игр, чтобы научиться играть в го. AlphaGo Zero пропускает этот шаг и учится играть, просто играя в игры против себя, начиная с совершенно случайной игры. При этом он быстро превзошел человеческий уровень игры и победил ранее опубликованную чемпионскую версию AlphaGo со счетом 100 игр до 0.

Это можно сделать с помощью новой формы обучения с подкреплением, в которой AlphaGo Zero становится своим собственным учителем. Система начинается с нейронной сети, которая ничего не знает об игре Го. Затем он играет в игры сам с собой, комбинируя эту нейронную сеть с мощным алгоритмом поиска. Во время игры нейронная сеть настраивается и обновляется, чтобы предсказывать ходы, а также возможного победителя игр.

Резюме

Глубокое обучение с подкреплением, возможно, является самой яркой областью в сообществе искусственного интеллекта прямо сейчас. Каждый день происходят новые события, и мы не знаем, где окажемся. Кажется, мы можем осуществить мечту об искусственном интеллекте в ближайшие десятилетия.