Янн Ле Канн, руководитель отдела искусственного интеллекта (ИИ) в Facebook, однажды сказал:

Если бы интеллект был тортом, то обучение без учителя было бы тортом, обучение с учителем было бы вишенкой на торте, а обучение с подкреплением было бы вишенкой на торте.

Вишенка на торте.

Бесплатный словарь Farlex определяет этот термин как «дополнительное преимущество или положительный аспект чего-то, что уже считается положительным или полезным». В тезаурусе Macmillan это означает «конечная вещь, которая делает что-то совершенным».

Я больше согласен с первым определением. Может быть, я просто не люблю вишню. Думаю, на вкус моего торта это существенно не повлияет. Это всего лишь украшение — глазная конфетка.

Но я смутился, услышав заявление Янна. Я не считаю, что обучение с подкреплением имеет мало значения для объяснения интеллекта.

Когда я был ребенком, я видел, как люди реагируют на то, что я говорю или делаю. Может быть, изменилось их лицо, то, как они дышат, их поза. Эти изменения заставляют меня делать или не говорить о словах когда-либо снова.

Итак, я думаю, что люди учатся на последствиях своих действий, которые формируют их интеллект. Этот метод обучения на последствиях является тем, на чем основано обучение с подкреплением.

Обучение с подкреплением

Обучение с подкреплением (RL) – это алгоритм машинного обучения, который учитывает последствия (поощрения и наказания) для решения задач. Агент, представляющий алгоритм RL, изучает свое поведение путем проб и ошибок при взаимодействии со своей средой.

RL приобрела популярность в исследовательском мире за последнее десятилетие. От DeepMind от Google до OpenAI Илона Маска, RL доказала свою способность находить решения, немыслимые людьми.

Давайте взглянем на AlphaGo от DeepMind. Этот агент RL обыграл мастера го Ли Седоля в четырех из пяти матчей в 2016 году. Го — это форма настольной игры, популярная в странах Восточной Азии, таких как Китай, Корея и Япония.

Многие эксперты по го утверждали, что стиль игры AlphaGo нетипичен для людей. Он производил движения Го, которые сначала кажутся абсурдными, но в конечном итоге приводят к тому, что агент доминирует в игре.

Это явление происходит потому, что агент RL учится, исследуя и эксплуатируя. Исследование — это когда агент ищет новую стратегию в надежде получить высокое вознаграждение. Эксплуатация — это когда агент использует подход, который, как он знает, обеспечивает наибольшую выгоду.

В контексте AlphaGo исследование агента создает стратегии, неизвестные людям.

Основная проблема в обучении с подкреплением заключается в создании среды моделирования. Например, относительно просто смоделировать шахматы или го. Но смоделировать среду автономного автомобиля сложнее.

Только когда среда моделирования разработана и аналогична ее реальному приложению, RL может работать оптимально.

Недавно Футбольный клуб Манчестер Сити с Google запустил конкурс на создание RL для футбольных игр. Этот вызов направлен на открытие другого подхода к футбольной стратегии. В будущем классические схемы 4–4–2 могут оказаться неактуальными для игры из-за обучения с подкреплением.

Вывод

Возвращаясь к аналогии с вишней, я думаю, что это утверждение направлено на то, чтобы определить роль RL в объяснении интеллекта биологических существ. Он не недооценивает обучение с подкреплением с точки зрения его возможностей или важности.

Более того, мы еще не определили четко, что такое интеллект. Возможно, мы пересмотрим заявление Яна Ле Канна, как только получим более четкое представление о том, как работает интеллект.

В ответ на заявление Янна Питер Аббил, профессор Калифорнийского университета в Беркли, сказал:

Я предпочитаю есть торт с большим количеством вишен, потому что мне нравится обучение с подкреплением.

В конце концов, это только дело вкуса?