Человеческий мозг использует несколько сигналов для локализации звука, включая интенсивность (громкость), время и частоту шума. Из-за необходимости обнаруживать угрозы и своевременно реагировать на них люди научились довольно хорошо определять местонахождение источника звука — фактически в пределах двух градусов пространства! Для тех, у кого есть слух, это причина, по которой вы можете определить, приближается пожарная машина или удаляется, и что делает игру Марко Поло любимой игрой в бильярд для поколений людей.

Когда дело доходит до локализации звука в автономном роботе, таком как Мисти, это может быть не вопросом выживания (и уж точно не игр в бильярд), но способность локализовать звук крайне важна для ее способности взаимодействовать и взаимодействовать с ее окружением и с вами.

Звуковая локализация Мисти: технология

Мисти полна возможностей, и многие из них сосредоточены на ее способности взаимодействовать и вовлекаться. Локализация звука считается возможностью взаимодействия наряду с обнаружением и распознаванием лиц, событием пробуждения, аудиозаписью, воспроизведением аудио и емкостным касанием. Итак, как это работает?

Проще говоря, Мисти использует сенсорные данные (в данном случае звук), которые она улавливает с помощью трех микрофонов дальнего поля, расположенных в ее голове и использующих Qualcomm® Fluence™ PRO. Эти три мощных микрофона имеют эхоподавление и подавление шума, отслеживание положения звука для определения местоположения пользователя относительно устройства, фокусировку звука для захвата голоса из определенных областей и отслеживание положения.

Туманный навык: двигаться к звуку

В то время как локализация звука открывает двери для многих возможностей, настоящее волшебство происходит, когда вы включаете эту возможность в реальный вариант использования через свой код. Misty Robotics Prototype Engineer, CP, понял это, что вдохновило его на создание Move to Sound Misty Skill.

В этом навыке, когда Мисти слышит голос, она поворачивается к говорящему и движется в его направлении, поднимая руку, чтобы помахать. (Подробнее об этом поворотном движении ниже.) Взаимодействие продолжается, если говорящий касается емкостного датчика на подбородке Мисти; она реагирует на прикосновение, фотографируя все, что находится перед ней.

Поскольку Мисти легко интегрируется со сторонними API, CP использовала Microsoft Cognitive Services для получения данных о том, что Мисти фотографировала. Затем он воспользовался услугой преобразования текста в речь, чтобы Мисти озвучила то, что она увидела, когда ее датчик подбородка был активирован. По мере того, как Мисти начинает понимать контекст своей среды, она может выполнять более сложные задачи как дома, так и в бизнес-приложениях.

Давайте вернемся к тому, как Мисти поворачивается — сначала ее голова, а затем ее тело — прежде чем она начнет двигаться после обнаружения голоса CP. Движения и манеры роботов имеют значение. Чем они более естественны, тем легче людям принять их как полезных компаньонов, а не просто еще один элемент оборудования; чем больше они похожи на людей, тем легче взаимодействовать с ними в нашей повседневной жизни осмысленным образом.

Чтобы обеспечить это естественное движение, CP использовала запатентованную шею Мисти с тремя степенями свободы через Командный центр.

Короче говоря, КП устранила резкие, «роботизированные» движения в пользу более плавного движения. Во-первых, он запрограммировал Мисти поворачивать голову, и когда голова поворачивается и вот-вот достигнет своего предела (рыскание), ее тело тоже начинает поворачиваться лицом к человеку. Затем, когда тело поворачивается, голова начинает поворачиваться обратно к центру, что создает впечатление, что ее голова не движется, а тело поворачивается.

Хотя это плавное движение имеет большое значение в этом навыке и любых вариантах использования, в которых оно используется, для этого требуется всего несколько строк кода, которые можно найти здесь в репозитории CP на GitHub.

Включение звуковой локализации в ваши собственные навыки

Навык Move to Sound Misty может привлечь внимание, как показано на видео выше. Мисти может приветствовать вас утром, когда вы выходите из своей спальни и произносите ее имя, приветствовать вашего ребенка, когда он возвращается домой из школы, и быть бесконечно веселой встречающей на вашей следующей вечеринке или корпоративном мероприятии. (Ну, ей может понадобиться зарядка через несколько часов, но не всем ли?)

Кроме того, вы можете сделать так, чтобы Мисти отдалялась от шума, что также добавляло ей индивидуальности. Точно так же, как человек или животное, скорее всего, отойдут от громкого шума, потому что это может представлять угрозу их безопасности, вы также можете запрограммировать Мисти так, чтобы она отступала, когда она обнаруживала потенциально угрожающий шум. Некоторые примеры включают громкую кофемолку, хлопающую дверь, лающую собаку или вакуум (эй, это может быть страшно для 14-дюймового робота!) Я только что создал еще один навык.

Для создания первого профессионального робота-платформы для разработчиков требуются серьезные технологии. Три динамика дальнего поля Мисти от Qualcomm® Fluence™ PRO, ее два процессора Qualcomm® Snapdragon, камера 4k и все другие функции, аккуратно упакованные в этот шестифунтовый робот, гарантируют, что ваши идеи для нее могут быть реализованы. выполнено успешно — Все, что ей сейчас нужно, это ваш код.

Пожалуйста, поделитесь своими идеями и навыками, которые вы развиваете, на нашем форуме сообщества и найдите другие Туманные навыки, которые уже создали другие!