Мы хотим обучить робота → который действительно может передвигаться по дому → голосом → это очень сложная задача. Робот должен понимать голос и текст → и преобразовывать это в диапазон задач → направление движения и многое другое.

Это была долгая цель → и был достигнут большой прогресс → но он не готов к реальным задачам → они слишком сложны → навигация непростая.

Это новый тип задачи → задача языка для видения → такая интересная. (дальние проблемы). (и этот набор данных очень мощный, поскольку мы работаем с изображениями реального мира).

VLM → это гораздо более длинный язык → это усложняет задачу → поскольку модель должна действительно понимать эту длинную фразу.

Они не используют синтетические данные → очень интересно и круто → их можно перевести в реальные приложения и многое другое.

Эта статья — начало этой задачи → они создали основу для этого исследования. (навигация и язык → были предметом исследования в течение длительного периода времени → но они еще не решены). (робот может фактически управлять камерой → то, на что он смотрит → так что степень свободы и контроля намного выше).

RL → это правильный способ решить навигацию → или, по крайней мере, так кажется → и в этом секторе было проведено некоторое исследование. (Набор данных навигации от комнаты к комнате)

Это реальное изображение для навигации.

Хотя точки дискретны → реальная область, в которой робот может перемещаться, огромна → поэтому решить проблему очень сложно. (также используется мех-турк амазонки).

Вначале → роботу дается какая-то инструкция, которой нужно следовать → и агент должен выполнить эту последовательность действий.

Довольно сложное направление для следования → эту проблему решить непросто. (сравнивается производительность работника и агента).

Для обработки разных частей входных данных используются разные модели → для НЛП → используется последовательность на основе LSTM.

НЛП → функции обычно кодируются в скрытую переменную → это хороший подход. (сверхсложный тренировочный процесс)

Тем не менее, люди намного лучше → но другие методы быстро наверстают упущенное (это вопрос времени).

Обобщение на невидимую среду → это самая сложная часть → разница в распределении → НС всегда соответствует обучающим данным.

Это важный документ → хорошая основа для визуальной навигации.