AI Scholar: имитационное обучение — предоставление агентам возможности изучать надежные политики посредством демонстрации

Настало время смотреть и учиться для роботов

Это краткое изложение исследования – лишь одно из многих, которые еженедельно публикуются в информационном бюллетене для ученых, занимающихся искусственным интеллектом. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.

В последние годы машинное обучение (ML) сделало значительный скачок. Кроме того, сочетание глубокого обучения принесло огромные успехи во многих областях, включая компьютерное зрение, распознавание речи, робототехнику, перевод текста, здравоохранение, игры и многое другое. Глубокое обучение превзошло лучшего в мире игрока в го и достигло сверхчеловеческих результатов в играх Atari.

Но что касается автономных достижений в реальном мире, давайте все признаем, что мы еще не достигли этого.

Научить реальных агентов действовать логически в неструктурированной среде сложно. Вопрос уже задавался — как человеческие знания могут быть переданы агентам? Ответ — имитационное обучение.

Имитационное обучение позволило добиться больших успехов в робототехнике и других областях. Но такие проблемы, как обучение только на основе наблюдений, изучение соответствия между демонстрациями эксперта и взглядами агента, а также вопрос о том, как интегрировать имитационное обучение с другими подходами, такими как обучение с подкреплением, все еще существуют.

Генеративные модели предшественников для имитационного обучения

Заимствуя из предыдущих генеративных моделей, исследователи теперь представляют новые генеративные модели предшественников для имитационного обучения (GPRIL).

Новый подход основан на концепции, которая дополняет обучающие наборы данных экспертными демонстрациями и динамикой окружающей среды, которые заранее предоставляются агентам и наблюдаются только во время взаимодействия. Пары «состояние-действие» позволяют агентам эффективно подражать эксперту и тренироваться с помощью корректирующего поведения и уменьшения ошибок.

Таким образом, методология позволяет агентам изучать надежные политики, используя лишь несколько экспертных демонстраций и самостоятельных взаимодействий с окружающей средой. GPRIL соответствует или превосходит современные имитационные модели в двух смоделированных задачах манипулирования роботами и демонстрирует значительно высокую эффективность образца на реальном роботе.

Возможное использование и эффекты

GPRIL может помочь нам решить проблемы неэффективности выборки или вычислительной осуществимости при обучении реальных агентов. Кроме того, он может сделать процесс обучения автономным технологиям более безопасным и быстрым.

Подробнее: https://arxiv.org/abs/1904.01139

Спасибо за чтение. Пожалуйста, комментируйте, делитесь и не забывайте подписаться! Кроме того, подписывайтесь на меня в Twitter и LinkedIn. Не забудьте поставить 👏, если вам понравилась эта статья. Ваше здоровье!