FICM может быть более эффективным средством для агента RL для получения бонусов за исследование.

Мотивировать ИИ?

Помните конфеты от учителей, когда вы получали правильный ответ в классе? Своего рода очарование, которое побуждает вас продолжать вести себя хорошо и исправлять себя, чтобы соответствовать стандарту получения конфет. Как и нам, искусственному интеллекту (ИИ) также нужно что-то привлекательное, чтобы поддерживать мотивацию к обучению и самосовершенствованию. Основываясь на этой концепции, в последнее время в области машинного обучения (ML) появилось множество различных методов, и самый популярный из них основан на концепции обучения с подкреплением (RL).

Подходы к обучению с подкреплением (RL)

Обучение с подкреплением, один из способов, которым ИИ учится взаимодействовать с окружающей средой, обучает агента (подобного мозгу объекта ИИ) продолжать учиться и исправлять себя посредством наблюдений за окружающей средой и награды за выполнение действий в определенных состояниях. С помощью RL агент понимает текущие состояния (это называется «исследованием»)и разрабатывает наилучшую политику для решения проблемы. В результате вознаграждения, полученные из окружающей среды, невероятно важны для обучения агента, поскольку с помощью сигналов вознаграждения агент может понять свои ошибки и попытаться продолжать совершать действия, которые генерируют положительные вознаграждения.

«Бонусы за исследования» поддерживают мотивацию агента RL

Исследование с помощью внутренних вознаграждений на основе потока: https://youtu.be/W5XW1NiFVtw

На пути предоставления агенту достаточного вознаграждения в различных средах исследователь столкнулся с множеством затруднений. К счастью, недавно была введена концепция предоставления агенту «внутренних вознаграждений» (также известных как бонусы за исследование) за эффективное исследование. Исследователи разработали множество различных методов, и один из них, который широко признан эффективным, называется исследование, движимое любопытством. Однако жизненно важным недостатком этого метода является необходимость плотные входные данные и плохая производительность при прогнозировании сложных или быстро меняющихся наблюдений.

FICM может стать новым курортом, использующим искусственный интеллект!

Чтобы преодолеть эти препятствия и разработать гораздо более эффективный подход к предоставлению агенту достаточного внутреннего вознаграждения, наша команда вводит новую методологию под названием Fнизкоосноваемая Iвнутренняя. Curiosity Модуль (FICM). FICM создает внутренние вознаграждения на основе ошибок предсказания оценки оптического потока, предпочтительного метода, обычно используемого в области компьютерного зрения (CV), для оценки новизны наблюдений для сложные или быстро меняющиеся наблюдения. Другими словами, при больших ошибках прогнозирования FICM будет генерировать высокие внутренние вознаграждения, чтобы побудить агента проводить гораздо больше исследований. Напротив, когда ошибки предсказания в целом невелики, внутреннее вознаграждение также будет низким, что указывает на то, что агент уже видел наблюдение много раз.

Пусть FICM поиграетв Super Mario Bros!

Чтобы оценить производительность и эффективность FICM, мы позволили FICM поиграть в три известные компьютерные игры: ViZDoom, Atari 2600 и Super Mario Bros.В процессе игры мы получили несколько удивительных результатов, которые мы хотел бы поделиться.

Оцените эффективность конвергенции с помощью «Внешних вознаграждений».

Во-первых, чтобы проверить способность FICM обрабатывать необработанную визуальную информацию и проводить исследования, мы проводим эксперименты в игровой среде ViZDoom:DoomMyWayHome-v0. Мы установили правило, что только когда агент достигает фиксированной цели, мы даем ему вознаграждение «+1». (Это также называется «внешним вознаграждением», которое похоже на конфету, которую ваш учитель дал вам, когда вы получили правильный ответ.) Таким образом, мы демонстрируем, что FICM является более эффективным методом для многих различных сред. Мы сравниваем эффективность агентов в разреженных и очень разреженных средах внешних вознаграждений. Результаты показывают, что FICM и базовые показатели могут направлять агента к цели в условиях разреженного вознаграждения. Однако в очень разреженной среде базовый уровень не справляется с поставленной задачей, поскольку не может генерировать эффективные внутренние вознаграждения, чтобы поддерживать мотивацию к исследованию. FICM может помочь агенту получить достаточное и эффективное внутреннее вознаграждение и с энтузиазмом провести исследование в обеих средах, даже если предлагается мало внешних вознаграждений.

Оцените эффективность конвергенции без какого-либо «внешнего вознаграждения».

Во-вторых, мы хотели бы исследовать, что в экстремальных условиях (например, когда вообще нет внешнего вознаграждения) агент, использующий FICM, может по-прежнему работать хорошо, как обычно. Поэтому мы дополнительно проводим эксперименты с Super Mario Bros. и семью различными играми Atari, включая BeamRider, Breakout, Pong, Qbert, RiverRaid, SeaQuest и SpaceInvaders. В результате эксперимента мы обнаружили, что наш метод может помочь агенту превзойти базовые подходы в большинстве игр. Всестороннее обсуждение этих результатов представлено в нашей статье.

FICM работает лучше, когда исходные данные красочные!

Некоторые люди чувствуют мотивацию к учебе, когда учебник красочный, и FICM тоже так считает! В наших экспериментах мы используем входные кадры RGB и оттенки серого при создании внутренних вознаграждений, чтобы сравнить эффективность FICM в разных ситуациях. Результаты показали, что FICM, использующий кадры RGB, превосходит метод, использующий только кадры в градациях серого, что указывает на то, что FICM может более эффективно кодировать функции и полностью использовать информацию, содержащуюся в каналах RGB.

FICM работает хорошо, как обычно, даже если входные кадры не объединены в стопку.

Мы вводим два последовательных кадра (не сложенных) и пару сложенных кадров, чтобы подтвердить, хорошо ли работает FICM, когда есть больше сложенных входных данных. Удивительно, но нет существенной разницы в кривых оценки сложенных и не сложенных кадров. В результате мы предполагаем, что FICM требует только несложенные кадры, а не сложенные кадры, для создания внутренних вознаграждений в предлагаемом нами методе.

Хотите узнать больше о FICM?

FICM потенциально может быть новым и эффективным способом помочь агенту почувствовать мотивацию к исследованию, и он может решить проблему низкой производительности, когда агент подвергается воздействию среды с редкими сигналами вознаграждения. FICM обеспечивает несколько дополнительных преимуществ, таких как эффективность использования информации о цвете при исследовании, а также эффективность кодирования входных кадров. Если вы заинтересованы, пожалуйста, обратитесь к нашим arXiv и github для получения более подробной информации о FICM.

Документ arXiv: https://arxiv.org/abs/1905.10071

Github: https://github.com/hellochick/MarioO_O-flow-curioisty

Твиттер: @ЭльзаЛаб9

Фейсбук: @ElsaResearchLab