Глубокое обучение с подкреплением

Элли Люси, 15 марта 2019 г.

Глубокое обучение с подкреплением (DRL) хвалят как потенциальный ответ на множество проблем, связанных с приложениями, которые ранее считались слишком сложными для машины. Решение этих проблем может привести к широкомасштабному прогрессу в различных отраслях, включая, помимо прочего, здравоохранение, робототехнику и финансы.

Глубокое обучение с подкреплением представляет собой комбинацию как глубокого обучения, так и обучения с подкреплением, но как они сочетаются и как добавление глубокого обучения улучшает обучение с подкреплением? Мы слышали термин обучение с подкреплением в течение некоторого времени, но за последние несколько лет мы увидели рост интереса к DRL, и это правильно. Проще говоря, агент обучения с подкреплением становится агентом глубокого обучения с подкреплением, когда слои искусственных нейронных сетей используются где-то в его алгоритме. Самый простой способ понять DRL, приведенный в Руководстве Skymind по DRL, — это рассмотреть его в сеттинге видеоигры. Прежде чем прыгнуть с головой в кроличью нору DRL, я сначала расскажу о некоторых ключевых понятиях, на которые будут ссылаться повсюду.

1. Агент. Агент — это, как это звучит, сущность, которая выполняет действия. Вы агент, и для пользы этого блога Pacman является агентом. Сам агент обучается, взаимодействуя со средой, но об этом позже.

2. Среда. Среда – это физический мир, в котором действует агент, например, обстановка игры.

3. Состояние. Состояние относится к непосредственной или текущей ситуации, в которой находится агент, это может быть как настоящее, так и будущее. Конфигурация входных данных среды, которые создают непосредственную ситуацию для агента.

4. Действие. Действие – это множество возможных решений или действий, которые может совершить агент. Примером здесь может быть решение, необходимое в Pacman (я знаю, голое со мной), в отношении движения вверх, вниз, влево или вправо, чтобы избежать потери жизни.

5. Награда. Наградой является обратная связь, как положительная, так и отрицательная, которая позволяет агенту понять последствия своих действий в текущей среде, в которой он оказался.

DRL часто сравнивают с видеоиграми из-за схожести процессов. Позвольте мне объяснить: представьте, что вы играете в свою любимую видеоигру и обнаруживаете, что легко проходите все уровни на средней сложности, поэтому вы решаете сделать шаг вперед. Скорее всего, более высокая сложность заставит вас регулярно терпеть неудачу из-за непредвиденных препятствий, которые возникают. Если вы настойчивы, вы узнаете о препятствиях и проблемах на каждом уровне, которые затем можно будет преодолеть или избежать в следующий раз. Не только это, но вы будете изучать каждый шаг в надежде получить максимальное вознаграждение, будь то монеты, фрукты, дополнительные жизни и т. д. Обучение с подкреплением во многом работает таким образом, когда конкретный агент оценивает свое текущее состояние по отношению к окружающей среде. , собирая отзывы повсюду, с положительными (получение большего количества очков на уровне) и отрицательными (потеря жизней и необходимость начинать заново) результатами. Именно тогда агент изучает самый легкий путь к победе путем проб и ошибок, все время обучая себя лучшим методам для каждой задачи. Затем это достигает кульминации в почти идеальной методологии для задачи, повышая эффективность и производительность.

Источник изображения — Sutton & Barto — Обучение с подкреплением и введение

Итак, о чем вся эта суета?

С потенциалом использования DRL для ряда задач, в том числе тех, которые могут улучшить качество стационарного ухода и улучшения жизни, что проявляется в большем объеме ухода за пациентами и регулярных плановых посещениях. Рост автоматизации также приведет к прекращению утомительных и изнурительных задач, выполняемых людьми, и, если верить сообщениям, это не остановится на достигнутом: к 2055 году более половины сегодняшних рабочих операций будет выполняться автоматизацией. , мы еще на самых первых шагах ДХО. Следует также признать, что в зачаточном состоянии существуют проблемы с DRL, и многие утверждают, что он еще не работает и что, хотя шумиха должна быть признана, необходимо огромное количество дальнейших исследований. Может ли это решить все ваши проблемы, ну, это зависит от того, кого вы спросите, но нет никаких сомнений в огромном потенциале, который может привести к широкомасштабным изменениям в ближайшие несколько лет!

Саммит по глубокому обучению с подкреплением должен состояться в Сан-Франциско в июне, собрав самые яркие умы, работающие в настоящее время в этой области, чтобы обсудить и представить последние отраслевые исследования, теоретические прорывы и методы применения. От имитации и многозадачного обучения до групповой робототехники и сквозного обучения — саммит продемонстрирует академические достижения в области DRL, а также их влияние на бизнес и промышленность. В чем еще заключаются проблемы в исследованиях? Как компании могут использовать прогресс? Получите ответы на все свои вопросы и многое другое в Сан-Франциско!

Если у вас есть какие-либо вопросы или вы хотите вести какие-либо другие блоги, посвященные DRL, напишите Люку в нашем чате (оранжевая кнопка в правом нижнем углу экрана). Любые отзывы о наших блогах всегда приветствуются!

Для получения дополнительной информации о повестке дня и подтвержденных спикерах посетите раздел Повестка дня. Забронируйте билет на вершину до 3 мая, чтобы получить скидку более 20% на пропуск.

Глубокое обучение с подкреплением — О чем весь этот шум?

Вопросы по теме