Профессор Ричард Саттон считается одним из отцов-основателей современного компьютерного обучения с подкреплением. Он внес несколько значительных вкладов в эту область, в том числе изучение разницы во времени, методы градиента политики и архитектуру Dyna.

Удивительно, но первая область, в которую обратил внимание доктор Саттон, даже не имела отношения к информатике. Он получил степень бакалавра психологии, а затем занялся информатикой. Однако он не думал, что это изменение направления 「Меня интересовало, как работает обучение, поскольку это беспокоило большинство психологов, и в 1977 году я получил степень психолога; в то время обучение не было популярным в информатике. Поскольку меня интересует ИИ или что-нибудь, связанное с ИИ, я изучал информатику в качестве магистра, а затем доктора философии. Психология перекрашивает мои взгляды на ИИ с обучением людей и животных (что является моим секретным оружием), потому что многие люди в У AI нет этого фона. Я начал там и черпал вдохновение в психологии. Сказал доктор Саттон.

В 1984 году доктор Саттон занимал постдокторскую должность в Массачусетском университете в Амхерсте. С 1985 по 1994 год он был главным техническим сотрудником лаборатории компьютерных и интеллектуальных систем в GTE Laboratories. В 1995 году он вернулся в Массачусетский университет в Амхерсте в качестве старшего научного сотрудника. Он занимал эту должность до 1998 года, когда пришел в лабораторию Шеннона AT&T в качестве главного технического сотрудника отдела искусственного интеллекта. Он сосредоточил свои исследования на проблемах обучения, с которыми сталкивается лицо, принимающее решения, когда оно взаимодействует с окружающей средой, на проблемах, которые он видит в основе искусственного интеллекта. Он также интересуется психологией обучения животных, коннекционистскими сетями и общими системами, которые постоянно улучшают свои представления и модели мира. С 2003 года он стал профессором и заведующим кафедрой iCORE на факультете компьютерных наук Университета Альберты, где он возглавлял Лабораторию обучения с подкреплением и искусственного интеллекта (RLAI).

Название лаборатории (RLAI) кажется глубоким, потому что оно показывает, что обучение с подкреплением - это решение всех проблем ИИ. Однако во время интервью доктор Саттон дал нам объяснение с другой точки зрения. Он обратил внимание на то, что некоторые люди думают, что RL - это просто усиление проблем AI, однако проблема RL на самом деле является абстрактным подходом к AI. 「Я хочу сказать, что мы используем подход к ИИ. Забавно называть обучение с подкреплением и искусственный интеллект, слово «и» на английском языке может означать либо исключающее, либо включающее, оно может быть «и» или может быть «или». Потому что обучение с подкреплением - это одновременно и подмножество ИИ, и его начало. Это довольно неоднозначно. Мы все еще ищем ответ. Сказал доктор Саттон.

Обучение с подкреплением, одна из наиболее активных областей исследований в области искусственного интеллекта, представляет собой вычислительный подход к обучению, при котором агент пытается максимизировать общую сумму вознаграждения, которое он получает при взаимодействии со сложной неопределенной средой. В настоящее время, если вы новичок в RL, вероятно, лучшим вариантом будет книга Ричарда Саттона и Эндрю Барто «Обучение с подкреплением: введение», в которой четко и просто излагаются ключевые идеи и алгоритмы обучения с подкреплением. Обсуждения Ричарда Саттона и Эндрю Барто варьируются от истории интеллектуальных основ этой области до самых последних разработок и приложений. Однако в 1970-х годах, несмотря на то, что машинное обучение становилось широко известным и популярным, такого понятия, как обучение с подкреплением, все еще не существовало.

Синсед посетил университет Альберты и поговорил с Богом-отцом обучения с подкреплением…

Синхронизировано: как началось обучение с подкреплением? Что является отправной точкой для написания алгоритмов?

Доктор Саттон: Это всегда было очевидной идеей, обучающая система чего-то хочет, а какое-то обучение отсутствует. В 1970-х Гарри Клопф (1972,1975,1982) написал несколько отчетов, посвященных аналогичным проблемам. Он признал, что важные аспекты адаптивного поведения были потеряны, поскольку исследователи в области обучения сосредоточились почти исключительно на обучении с учителем. Недостающая часть - это основная идея обучения методом проб и ошибок. Мы попытались выяснить, в чем основная идея, и выяснили, что он прав. Эта идея никогда не изучалась ни в каких областях, особенно в машинном обучении, ни в теории управления, ни в инженерии, ни в распознавании образов. Все эти области упустили эту идею из виду. Вы могли видеть некоторые ранние работы в 50-х, люди говорили о пробной нейро, но в конце концов это стало контролируемым обучением. У него есть цели и тренировочные наборы, и попытайтесь запомнить, попытайтесь сделать из них обобщения. Забавно, что сейчас мы говорим о глубоком обучении и обучении с подкреплением. В самом начале была похожая ситуация, когда мы пытались отличить обучение с подкреплением от обучения с учителем. Вам нужна система, которая может учиться, и все. Таким образом, система обучения с подкреплением находит способ вести себя или максимизировать мир, когда контролируемое обучение просто запоминает данные им примеры и обобщает новые, но им нужно указывать, что делать. Теперь система обучения с подкреплением может пробовать разные вещи. Мы должны пробовать разные вещи, мы должны искать действия и пространства или определять обучение, чтобы максимизировать мир. Итак, эта идея была утеряна, и мы с Эндрю Барто постепенно понимаем, что ее нет в старых работах, и она была необходима. Это упрощенное представление о том, почему мы - предшественники.

(Примечание редактора: на самом деле, доктор Саттон разрабатывал и продвигал обучение с подкреплением (RL) с конца 1979 года. Как и другие, доктор Саттон чувствовал, что обучение с подкреплением было тщательно изучено на заре кибернетики и искусственного интеллект. В то время как обучение с подкреплением явно побудило к развитию некоторые из самых ранних вычислительных исследований обучения, большинство этих исследователей переключили свое внимание на другие вещи, такие как классификация паттернов, контролируемое обучение и адаптивный контроль, или они вообще отказались от изучения обучения. . Кроме того, вычислительная мощность компьютеров в то время была очень ограниченной, поэтому было довольно сложно применить обучение с подкреплением к реальной проблеме, поскольку обучение с подкреплением включает в себя множество проб и ошибок, прежде чем перейти к оптимальной политике, что может занять очень много времени.)

Synced: Как вы относитесь к развитию RL с 1970-х годов? Что дало вам веру в то время, когда развитие RL казалось долгим и медленным?

Доктор Саттон: Я не согласен с тем, что вы упомянули, что обучение с подкреплением развивается медленно, но я согласен с тем фактом, что увеличение вычислительных ресурсов имеет большое влияние на эту область. У вас есть время совпадать с наличием оборудования. Несмотря на то, что для глубокого обучения еще рано, он успешно использует много вычислений из-за своей мощи. Уже давно люди говорят, что у нас будет вычислительная мощность для сильного ИИ в 2030 году. Я думаю, что это зависит не только от дешевого оборудования, но и от алгоритмов. Я не думаю, что сейчас у нас есть сильные алгоритмы ИИ, но мы могли бы получить их к 2030 году.

Синхронизировано: Итак, что будет более критичным к 2030 году, аппаратное или программное обеспечение?

Доктор Саттон: Большой вопрос: сначала оборудование, а сначала программное обеспечение. У нас есть программное обеспечение для тестирования оборудования, а доступность оборудования подталкивает людей к программному обеспечению. Но это не особенно ценно для самых умных парней, которые занимаются исследованиями или работают с ограниченными вычислительными ресурсами. Даже в 2030 году у нас может быть адекватное оборудование, нам может потребоваться еще 10 лет, чтобы самый умный парень догнал алгоритмы. Теперь вы знаете мои рассуждения, можете переоценить или изменить сами.

Синхронизировано: AI очень хорошо использует области психологии и нейробиологии, такие как RL и ConvNets. Вы добавили две новые главы в свое новое издание книги RL. Почему важно взаимодействие между AI / RL и психологией / нейробиологией?

Доктор Саттон: Основное подкрепление, которое превосходит различное обучение, было обнаружено в основном в мозге. В мозгу есть процессы, которые подчиняются одним и тем же правилам и хорошо моделируются правилами обучения с подкреплением. Это так называемая стандартная модель мировой системы в нашем мозгу. И я говорю, что это стандартная модель не потому, что она идеальна, но каждый может ее выбрать. Вы знали, что добились успеха, когда все выбирают вас, а также систему вознаграждений в мозгу. Таким образом, наш мозг является хорошей моделью изучения психологии и изучения поведения животных. Между тем, другая важная вещь заключается в том, что модель основана на обучении, в котором вы можете заниматься планированием, на которое реагируют различные представления о повторении воображаемых обстоятельств. Это также модель, подкрепленная тем, как мы планируем, где мы можем изучить последовательности из различных демонстраций. Принимая во внимание и то, и другое, исследователи ИИ пытаются понять, что за этим скрывается.

Обучение с подкреплением изучает процесс принятия решений и контроля, а также то, как агент, принимающий решения, может научиться действовать оптимально в ранее неизвестной среде. Глубокое обучение с подкреплением изучает, как нейронные сети могут использоваться в алгоритмах обучения с подкреплением, что позволяет изучать отображение необработанных сенсорных входных данных и исходных моторных выходных сигналов, устраняя необходимость в ручном проектировании этого конвейера. Таким образом, в настоящее время глубокое обучение с подкреплением (DRL), которое сочетает обучение с подкреплением с глубоким обучением, стало очень популярным подходом для решения многих видов проблем, таких как игра, проблемы принятия решений, роботизированное управление и т. Д.

(Примечание редактора: доктор Саттон согласился, что сочетание RL и DL - действительно хорошее улучшение. Что касается конкретной области, например, компьютерного зрения (CV), он заявил, что 「Вы, безусловно, можете делать компьютерное зрение без обучения с подкреплением и практиковаться, как обычно, как подготовить набор данных, в основном контролируемый пример, а затем извлекать уроки из этого. Но я могу сказать, что у вас не было бы этого без глубокого обучения. Но кто на самом деле возьмется за воображение и сделает это с помощью обучения с подкреплением. Я думаю, что для этого потребуется немного сообразительности и воображения. Я склонен думать, что это будет прорыв в области компьютерного зрения с определенной степенью подкрепления. 」)

Доктор Саттон (продолжение): Преимущество обучения с подкреплением в том, что вы можете учиться в обычном режиме. Обычное глубокое обучение учится на обучении этикеток. (С обучением с подкреплением) Тогда как в принципе вы можете извлечь уроки из своей обычной работы. Вы можете проявить воображение, чтобы изменить его, потому что у вас нет примеров, но у вас гораздо больше опыта, чем просто нормальное использование. А затем вы делаете (тестируете) на обучающих примерах.

Что касается выигрышной особенности обучения с подкреплением, то AlphaGo, конечно же, одержала победу в другой лиге. Нет никаких сомнений в том, что достижения AlphaGo и скорость, с которой они улучшались, были беспрецедентными. По словам доктора Саттона, успех AlphaGo во многом объясняется комбинацией следующих двух мощных технологий: поиск по дереву Монте-Карло и глубокое обучение с подкреплением.

Синхронизировано: возьмем AlphaGo в качестве примера. Почему так важна самостоятельная игра? Есть ли ограничение на самостоятельную игру? Может ли агент продолжать улучшать свою работу?

Доктор Саттон: Самостоятельная игра может генерировать бесконечное количество обучающих данных. Вам не нужно, чтобы люди помечали тренировочные данные, чтобы играть самому, если вы можете пронумеровать примеры, разные игры. Это то, что мы хотим. Мы можем делать что-то вроде самостоятельной игры для реальной жизни, а не просто игры. Однако AlphaGo не хватает одной ключевой вещи: способности узнавать, как устроен мир, например, понимания законов физики и последствий своих действий. Вот и ограничение. Ограничение в том, что вам нужно просто поиграть с собой. Ограничение есть в обычной жизни, у нас нет аналогов правил игры, просто говорит нам, насколько хороши кусочки вашей реальной жизни. Вы знаете, что берете трубку и нажимаете кнопку, иначе что-то произойдет. Вы должны понять, что у вас нет встроенных правил игры. Вы не знаю последствий своих ходов. Так что для самостоятельной игры вам нужны правила игры.

Синхронизировано: глубокое обучение жаждет больших данных. Для обучения с подкреплением также обычно требуется много образцов. Тем не менее, есть исследования по обучению одним выстрелом, когда пытаются учиться на одном или нескольких образцах. Возможно, так люди учатся решать некоторые проблемы. Можно ли интегрировать идею обучения одним выстрелом с RL?

Доктор Саттон: Учимся медленно, чтобы вы могли учиться быстро, учиться с одного кадра. У меня есть фраза, которую нужно выучить, учиться медленно, чтобы можно было учиться быстро. Итак, вы знаете, что люди, через свою жизнь мы учимся хорошим репрезентациям. Так что затем, когда мы получим некоторый опыт, мы сможем очень быстро узнать, что означает правильное поведение, которое мы можем узнать из одного выстрела, но что обучение из одного выстрела основывается на длительном периоде сбора репрезентаций.

Синхронизировано: помимо всех преимуществ и достижений RL, давайте обсудим короткую сторону. Каковы ограничения обучения с подкреплением и ИИ в целом?

Доктор Саттон: Есть несколько действительно важных. Есть технические. Но позвольте мне перейти к тому, что мы все можем понять, что имеет более жесткие ограничения. Обучение с подкреплением в целом, то есть мы хотели бы иметь возможность узнать, как устроен мир, а затем применить эти знания в нашем плане, исправляя автономное поведение. Возьмем что-то вроде AlphaGo или компьютерных шахмат. Нам не нужно изучать, как устроен мир. Мы знаем, какие ходы, и мы знаем, каковы последствия ходов, или мы перемещаем эту фигуру туда, и тогда доска будет. И вы знаете, что мы уже можем делать удивительные вещи в подобном сценарии срочного планирования. Нам нравится делать то же самое, что у нас есть ходы, действия, выбор и последствия. У нас появился новый механизм, новый план с изученной моделью мира. Я думаю, это ключевая проблема. У нас нет выбора и никаких последствий, чтобы создавать модели того, как динамика мира констатирует и демонстрирует. Как только у нас появится это чувство, мы сможем их планировать и использовать ИИ в более сильном смысле.

Есть подзадачи, которые понимаются под знанием. Какие прогнозы мы хотим сделать о том, что будет происходить по-разному, как мы формально ведем себя по-разному? 「Мы собираемся узнать последствия, пробуя разные способы, но не доводя их до конца. 」Доктор Саттон объясняет это на типичном примере: Хорошо, давайте посмотрим, вы входите в комнату. Вот бутылка воды, стул, другие предметы вокруг, люди и т. Д. Вы можете разговаривать с разными людьми и отвечать на разные предметы, но я сделаю только одно и, возможно, никогда не возьму бутылку воды, потому что Я узнал, глядя на то, что это такое. то, что вы узнаете из этого частичного опыта, который мы называем обучением вне политики, поэтому обучение вне политики является нашей большой технической проблемой в обучении с подкреплением.

Синхронизировано: это интересно. Как лучше понять внеполитическое обучение?

Доктор Саттон: Чтобы эффективно изучать внеполитическую функцию, вам нужно учиться масштабно. вы хотите брать неподготовленные данные, и вам не нужно иметь обучающий набор, который всегда помечает изображения, вы хотят просто иметь возможность взаимодействовать с миром, получать опыт и узнавать, как мир устроен у них, так как мы можем учиться на неподготовленном опыте с миром. Вот для чего нужны методы усиления.

Синхронизировано: Спасибо, что уделили время сегодня. Напоследок, дайте совет новичкам в RL? Какие-нибудь мудрые приложения или философия за этим?

Доктор Саттон: Изучите основы и найдите приложение с недорогими затратами. Существует заведомо правильный ответ на что-то, выведенное из данных. Подумайте о лифте. Лучше прекратить, потому что посреди ночи никого нет, может, вчера и никто не выходил. Таким образом, вы хотите сэкономить электроэнергию, выключив, но затем включив его, когда люди придут. Так как же составить расписание? Так что информация о данных имеет значение. Плохое событие, когда вы управляете лифтом и никто не идет, потому что вы просто тратите время и силы. Так что думайте о том же, когда вы используете фактические данные без обучающей информации. Подумайте о подобных вещах где угодно.

Оригинальная статья из Синхронизированного Китая www.jiqizhixin.com | Автор: Рита Чен, Чейн Чжан, Арак Ву, Цзясинь Су | Локализовано Synced Global Team: Джаксин Су, Рита Чен, Меган Хан