Интерфейс для бесшумной речи – это устройство, которое позволяет общаться без использования звука, издаваемого людьми при озвучивании звуков речи. Основная цель интерфейса бесшумной речи — точное воспроизведение речи без вокализации. Конечный результат аналогичен «чтению чьих-то мыслей». Это захватывающая и развивающаяся технология, поскольку она очень подходит для взаимодействия человека и машины.

Этот пост Medium будет о том, как наука решает эту задачу и что можно сделать с помощью немой речи.

Цель

Не все интерфейсы беззвучной речи созданы для одной общей цели. Целью бесшумного речевого интерфейса может быть генерация фактического звука (например, для больных раком гортани), или генерация текста, или использование в качестве средства интерфейс между людьми и компьютерными системами… Поскольку цель отличается; методы и даже инструменты тоже различаются.

Brainmab стремится создать интерфейс мозг-компьютер (или человеко-машинный интерфейс) для взаимодействия с платформой Brainmab, с помощью которой люди могут тратить деньги на равных с помощью Brainmab. Токен или отправка/получение информации из облака. Бесшумный речевой интерфейс — это наша технология в дополнение к ЭЭГ (для сбора данных из самого мозга) и датчикам ЭМГ для конечностей (для обнаружения жестов движения).

Измерение активности

Первый шаг к получению безмолвной речи — найти правильный инструмент для мониторинга активности. Источником данных являются элементы производства человеческой речи, нервные пути или сам мозг. Вот некоторые популярные инструменты для сбора данных из системы речи человека:

Электроглотография: измеряет, сколько электричества проходит через гортань. Его можно использовать для измерения расстояния между голосовыми связками.

Электромиограф: измеряет электрическую активность скелетных мышц. Его можно использовать для измерения электрической активности лицевых мышц и языка, чтобы собрать важную информацию о том, что человек собирается сказать.

Фотоглоттограмма: наблюдение за движением голосовой щели и вибрацией голосовых связок.

Анализ данных

Необработанные данные сами по себе ничего не значат. Его необходимо обработать и проанализировать, чтобы использовать. Благодаря разработкам в области машинного обучения и статистики, сейчас как никогда возможно анализировать огромные объемы кажущихся зашумленными и случайными данных и извлекать из них смысл.

Обучение моделей машинного обучения немой речи ничем не отличается от обучения их распознаванию изображений по понятиям. Алгоритмы могут отличаться, но идея одна и та же. Помеченные или не помеченные, данные передаются модели обучения, и ожидается, что она установит связь между данными и их меткой или сгруппирует входные данные в категории, если метка отсутствует. После сеанса обучения модель может точно предсказать результаты для заданных входных данных.

Исполнение

Не все бесшумные речевые интерфейсы предназначены для управления компьютерной системой, но, как это делает Brainmab, мы объясним, как работает этот процесс.

Люди используют компьютерные системы повсюду. Механизм управления отличается, но в основе они похожи. Люди используют свои пальцы, чтобы сказать что-то своему смартфону, и получают ответ либо глазами, либо ушами. Персональные компьютеры получают инструкции от мыши, клавиатуры или сенсорных экранов (в настоящее время), а люди получают ответ так же, как при использовании смартфонов. Голосовые помощники используют голос для получения запросов и вывода ответа в виде звука. Вы должны давать инструкции устройству, а устройство должно отвечать вам. Все, что между этими двумя, автоматизировано программным обеспечением. В этом суть компьютерного программного обеспечения.

Бесшумный речевой интерфейс не использует мышь, клавиатуру, голосовые команды или сенсорный экран. Он использует внутренний голос людей, для создания которого им не нужно прилагать усилий. Устройство анализирует и анализирует ввод необработанной речи, чтобы преобразовать ее в полезные ответы, запросы или просьбы. Остальное автоматизировано компьютерным программным обеспечением. Все, что вам нужно сделать, это думать. И вы получите ответы. Опять же, по сути, это тот же опыт, но ввод-вывод отличается. Наступает момент, когда в реальности может иметь место следующий сценарий:

Интерфейс без звука. Хотите оплатить счет за электричество в размере 50 долларов США прямо сейчас?

Пользователь: О, да. Подтверждать.

Прочь идет. И откуда запрос? В прошлом он был запрограммирован на отправку вам уведомлений при получении запросов на оплату. Возможности безграничны по мере развития программных технологий. Вы могли бы заплатить за продукты, акции, криптовалюты и т. д.

Пользователь: Brainmab, отправьте Алисе 100 токенов Brainmab.

Интерфейс безмолвной речи: «Отправить Алисе 100 токенов Brainmab», вы подтверждаете?

Пользователь: Да, подтвердите

И снова понеслось.

Видео ниже является замечательным примером бесшумных речевых интерфейсов. Проект создан в Массачусетском технологическом институте и называется AlterEgo. Он использует электроды ЭМГ для измерения электрической активности определенных лицевых мышц, а затем использует модель машинного обучения для управления программным обеспечением внутри устройства. Устройство может отправлять информацию пользователю через наушники с костной проводимостью.

AlterEgo — это замкнутая, неинвазивная, носимая система, которая позволяет людям общаться на естественном языке с высокой пропускной способностью с машинами, помощниками искусственного интеллекта, службами и другими людьми без какого-либо голоса — не открывая рта и без внешнего наблюдения. движения — просто внутренне вокализируя. Носимое устройство улавливает электрические сигналы, вызванные едва уловимыми, но преднамеренными движениями внутренних речевых артикуляторов (когда пользователь намеренно озвучивает про себя), подобно разговору с самим собой.

Это еще один пример бесшумных речевых интерфейсов. Он отличается от предыдущего тем, что требует видимых движений рта для создания текста из немой речи. Наличие видимого движения повышает качество продукции.

В этой демонстрации показано, как можно использовать интерфейс тихой речи для создания звука. Автор Томас Хьюбер из лаборатории CNRS/GIPSA использует ультразвуковое изображение для языка и инфракрасную камеру для фронтального обзора рта. Затем система анализирует входное изображение и пытается имитировать то, что она узнала.