Ссылка на документ: ArrayBot: обучение с подкреплением для обобщенных распределенных манипуляций с помощью касания

Страница проекта: ArrayBot: обучение с подкреплением для обобщенных распределенных манипуляций с помощью касания

Код: ArrayBot: обучение с подкреплением для обобщенных распределенных манипуляций с помощью касания

Ключевые идеи

  • В статье представлена ​​распределенная манипуляционная система ArrayBot, состоящая из массива 16x16 вертикально скользящих столбов с тактильными датчиками.
  • Столбы могут одновременно поддерживать, воспринимать и манипулировать объектами на поверхности. Цель состоит в том, чтобы достичь обобщенного распределенного манипулирования с помощью обучения с подкреплением (RL).
  • Агенты RL обучаются моделированию таких задач, как подъем, переворачивание и общее перемещение объектов, используя только тактильные ощущения. Измененное пространство действий позволяет успешно изучать политику.
  • Политика перемещения обобщает невидимые формы объектов в моделировании, а также переносит их непосредственно в физическую систему без методов моделирования в реальность.
  • Реальный ArrayBot демонстрирует манипулирование различными объектами, следование траекториям, параллельное манипулирование и устойчивость к возмущениям.
  • Распределенный характер делает ArrayBot гибким по размеру, поддерживает параллельное управление и может обрабатывать более крупные объекты. В документе утверждается, что RL в таких системах, как ArrayBot, может предложить преимущества в обобщаемости и переносе sim-to-real по сравнению с обычными манипуляциями.

ArrayBot

Аппаратное обеспечение

Аппаратное обеспечение ArrayBot состоит из сетки 16x16 вертикальных столбов, которые могут двигаться вверх и вниз. Каждая стойка содержит мотор, тактильный датчик, микроконтроллер и силиконовый наконечник. Столбы обеспечивают срабатывание и распознавание распределенных манипуляций на поверхности.

Чувство

Каждая стойка оснащена тактильным датчиком, чувствительным к силе (FSR), для измерения контактных сил, когда объекты помещаются на поверхность. Датчики обеспечивают тактильную обратную связь без какого-либо внешнего зрения.

Активация

Двигатели перемещают стойки вертикально со скоростью до 53 мм/с. Движение контролируется по положению с помощью PID и позволяет независимо управлять каждой стойкой в ​​массиве 16x16.

Обучение

Центральный компонент обучения использует обучение с подкреплением (RL) для обнаружения политик, которые координируют движения столбов для задач манипулирования. Ключевой проблемой является высокая размерность пространства действия 16x16. Чтобы обеспечить эффективное обучение, действия ограничены локальным участком 5x5 вокруг объектов и преобразованы в низкоразмерное представление в частотной области.

Политики, изученные в ходе моделирования, успешно переносятся в физическую систему напрямую, без необходимости адаптации моделирования к реальности, такой как рандомизация предметной области. Реальный ArrayBot демонстрирует такие возможности, как перемещение различных объектов, отслеживание траектории и устойчивость к помехам, используя только тактильное восприятие и изученные политики.

В целом, ArrayBot показывает, как можно эффективно координировать большие массивы распределенных приводов и датчиков с помощью обучения с подкреплением без моделей для достижения универсальных навыков манипулирования, которые передаются непосредственно в реальные физические системы.

Эксперименты

В моделировании агенты обучения с подкреплением обучались таким задачам, как подъем, переворачивание и перемещение кубов, используя предложенное измененное пространство действий. Действия в частотной области значительно превзошли обучение в исходном пространственном пространстве действий с точки зрения накопленных вознаграждений и продолжительности эпизода до выпадения куба. Это подтвердило преимущества изменения формы пространства действий.

Для задачи перемещения политика обобщается для успешного перемещения сотен новых форм объектов, не замеченных во время обучения, демонстрируя обобщение форм.

Примечательно, что эта политика перемещения была перенесена непосредственно из моделирования в физический ArrayBot без какой-либо адаптации моделирования к реальному или рандомизации домена. Нулевая передача указывает на надежность политики.

На физической системе ArrayBot добился разнообразных навыков манипулирования реальным миром:

  • Перемещение различных объектов, таких как дыни, бутылки, коробки и т. д. разных форм и размеров.
  • Следование произвольным траекториям путем итеративного перемещения.
  • Параллельное управление несколькими объектами путем выполнения нескольких экземпляров политики.
  • Надежное манипулирование даже при сильных возмущениях и нарушениях зрения, таких как проецирование динамических узоров на поверхность.
  • Жестко запрограммированные политики также позволяли выполнять более сложные действия, такие как вращение объектов, вычерпывание мячей из миски и скоординированный подъем.

Результаты показывают, как распределенный подход к срабатыванию и обучению позволяет перенести общие политики манипулирования в реальный мир. Навыки демонстрируют преимущества ArrayBot, такие как обобщение формы, отслеживание траектории, параллельная работа и устойчивость к возмущениям.