ПОДКАСТ

Искусственный интеллект с эффективным использованием образцов

Ян Гао о создании ИИ, который обучается так же быстро, как люди

Примечание редактора. Ведущим подкаста TDS является Джереми Харрис, соучредитель Mercurius, стартапа, занимающегося безопасностью ИИ. Каждую неделю Джереми общается с исследователями и бизнес-лидерами, работающими в авангарде отрасли, чтобы ответить на самые насущные вопросы, связанные с наукой о данных, машинным обучением и искусственным интеллектом.

Исторически сложилось так, что системы ИИ медленно обучались. Например, модели компьютерного зрения часто нужно увидеть десятки тысяч рукописных цифр, прежде чем она сможет отличить 1 от 3. Даже игровые ИИ, такие как AlphaGo от DeepMind или его более поздний потомок MuZero, нуждаются в гораздо большем опыте. чем люди, чтобы освоить данную игру.

Поэтому, когда кто-то разрабатывает алгоритм, который может достичь производительности человеческого уровня так же быстро, как человек, это большое дело. И именно поэтому я попросил Ян Гао присоединиться ко мне в этом выпуске подкаста. Ян — исследователь искусственного интеллекта, работающий в Беркли и Университете Цинхуа. Недавно он стал соавтором статьи, посвященной EfficientZero: системе обучения с подкреплением, которая научилась играть в игры Atari на человеческом уровне всего после двух часов игрового опыта. Это огромный прорыв в эффективности выборки и важная веха в разработке более универсальных и гибких систем искусственного интеллекта.

Вот некоторые из моих любимых выводов из разговора:

  • Начиная с AlphaGo, исследователи искусственного интеллекта признали перспективность интеграции обучения с подкреплением с методами поиска, которые включают в себя рассмотрение многих потенциальных следующих действий, доступных агенту RL, и моделирование возможных результатов, прежде чем выбрать одно из них. Это начинает гораздо более точно имитировать человеческое обдумывание, явно вводя элементы «планирования» в парадигму RL. Янг связывает огромные улучшения производительности AlphaGo, AlphaZero и MuZero с этим процессом поиска.
  • Еще одно важное различие в RL — между системами на основе моделей, которые создают явные модели своей среды, и системами без моделей, которые этого не делают. До AlphaGo почти вся основная работа по RL выполнялась в системах без моделей (например, PPO и глубокое обучение Q). Системы, основанные на моделях, просто не были практичными, потому что модели среды обучения сложны и добавляют значительный уровень сложности поверх более простой задачи выбора действия, на которой могут сосредоточиться исключительно системы без моделей. Но теперь, когда доступны вычислительные ресурсы и несколько новых алгоритмических приемов, системы на основе моделей быстро становятся более гибкими и все более функциональными вариантами.
  • MuZero от DeepMind стал важным шагом на пути к практическому моделированию RL. MuZero был разработан, чтобы играть в различные видеоигры, используя пиксели на экране в качестве входных данных. Однако, в отличие от своих предшественников, созданная модель игровой среды не пыталась предсказать, как изменится каждый игровой пиксель в будущем. Вместо этого он сопоставил игровую среду со скрытым пространством, сжав свое представление игры так, чтобы оно включало только релевантную информацию. Это низкоразмерное представление значительно упростило прогнозирование характерных особенностей игровой среды на будущих временных шагах и гораздо больше соответствует тому, как люди учатся играть в игры: например, когда мы играем в футбол, мы не отслеживаем каждую травинки на поле или выражения лиц каждого игрока — мы поддерживаем очень упрощенную ментальную модель арены, которая включает в себя несколько деталей, таких как расположение игроков, положение и скорость мяча, а также скоро.
  • EffcientZero улучшил MuZero во многих отношениях. Во-первых, он способен рассматривать гипотезы вида «как бы выглядело будущее, если бы я выполнил действие X?» Эта способность развивается в процессе обучения с самоконтролем, в котором EfficientZero использует свой прошлый опыт о том, как среда реагировала на аналогичные действия.
  • Во-вторых, EfficientZero также взял на себя так называемую «проблему алиасинга» — хорошо известную проблему в обучении с подкреплением, которая возникает из-за того, что модели среды агентов RL часто предназначены для предсказания точного временного шага, на котором произойдет ключевое событие (для например, точный видеокадр, в котором футбольный мяч влетит в ворота). Но такой уровень точности не требуется, и на самом деле контрпродуктивен, потому что он приводит к чрезмерно чувствительному сигналу обучения: даже если модель среды агента дает почти все правильно, но ее предсказания ошибочны на долю во-вторых, он не получает никакой награды! EfficientZero исправляет это, огрубляя измерение времени, гарантируя, что модель вознаграждается за прогнозы, которые «достаточно близки для практических целей». Опять же, за этим стоит мощная аналогия с человеческим обучением: хорошие учителя выставляют ученикам частичные оценки за правильное решение задачи вместо того, чтобы предлагать бинарные оценки 100%/0%. Это дает учащимся больше сигналов, за которые они могут ухватиться, а также позволяет избежать чрезмерной подгонки к уровням детализации, которые не имеют практического значения.
  • Не сразу понятно, как сравнивать эффективность выборки EfficentZero с эффективностью человека. Подход, описанный в документе EfficientZero, заключался в том, чтобы заставить группу людей играть в различные игры Atari и через два часа проверить, каковы были их медианы или средние результаты, и сравнить их с производительностью EfficientZero после того, как он был обучен. такое же количество игрового времени. И хотя эта стратегия выгодно отличает EfficientZero от людей, она почти наверняка занижает реальную эффективность выборки EfficientZero. В каком-то смысле, утверждает Ян, 8-летний ребенок, впервые взявший в руки игру Atari, готовился (тренировался) к ней всю свою жизнь, улавливая причинно-следственную динамику и даже культурные особенности. которые помогают им ориентироваться в игре, даже если они не видели ее раньше. EfficientZero, с другой стороны, должен изучать все это с нуля каждый раз, когда ему представляют новую игру.

Вы можете следить за Янгом в Твиттере здесь.

Главы:

  • 0:00 Вступление
  • 1:50 Предыстория Янга
  • 6:00 Деятельность MuZero
  • 13:25 MuZero в EfficientZero
  • 19:00 Сравнение эффективности образцов
  • 23:40 Использование алгоритмических настроек
  • 27:10 Важность эволюции для человеческого мозга и систем искусственного интеллекта
  • 35:10 Эффективность выборки на уровне человека
  • 38:28 Экзистенциальный риск от ИИ в Китае
  • 47:30 Эволюция и язык
  • 49:40 Подведение итогов