Мы хотим обучить робота → который действительно может передвигаться по дому → голосом → это очень сложная задача. Робот должен понимать голос и текст → и преобразовывать это в диапазон задач → направление движения и многое другое.
Это была долгая цель → и был достигнут большой прогресс → но он не готов к реальным задачам → они слишком сложны → навигация непростая.
Это новый тип задачи → задача языка для видения → такая интересная. (дальние проблемы). (и этот набор данных очень мощный, поскольку мы работаем с изображениями реального мира).
VLM → это гораздо более длинный язык → это усложняет задачу → поскольку модель должна действительно понимать эту длинную фразу.
Они не используют синтетические данные → очень интересно и круто → их можно перевести в реальные приложения и многое другое.
Эта статья — начало этой задачи → они создали основу для этого исследования. (навигация и язык → были предметом исследования в течение длительного периода времени → но они еще не решены). (робот может фактически управлять камерой → то, на что он смотрит → так что степень свободы и контроля намного выше).
RL → это правильный способ решить навигацию → или, по крайней мере, так кажется → и в этом секторе было проведено некоторое исследование. (Набор данных навигации от комнаты к комнате)
Это реальное изображение для навигации.
Хотя точки дискретны → реальная область, в которой робот может перемещаться, огромна → поэтому решить проблему очень сложно. (также используется мех-турк амазонки).
Вначале → роботу дается какая-то инструкция, которой нужно следовать → и агент должен выполнить эту последовательность действий.
Довольно сложное направление для следования → эту проблему решить непросто. (сравнивается производительность работника и агента).
Для обработки разных частей входных данных используются разные модели → для НЛП → используется последовательность на основе LSTM.
НЛП → функции обычно кодируются в скрытую переменную → это хороший подход. (сверхсложный тренировочный процесс)
Тем не менее, люди намного лучше → но другие методы быстро наверстают упущенное (это вопрос времени).
Обобщение на невидимую среду → это самая сложная часть → разница в распределении → НС всегда соответствует обучающим данным.
Это важный документ → хорошая основа для визуальной навигации.