Вам интересно, как BCI может восстановить общение с людьми, потерявшими способность двигаться или говорить, с помощью глубокого обучения?

Мы уже видели, как многие области, такие как обработка естественного языка, компьютерное зрение, профилактическое обслуживание, системы рекомендаций, так или иначе революционизировались с помощью глубокого обучения. В этой статье будет обсуждаться недавнее исследование, показывающее потенциал глубокого обучения в интерфейсах мозг-компьютер (BCI). BCI - это не просто футуристический интерфейс, который мы обычно видим в фантастических фильмах; Он может восстановить общение с людьми, потерявшими способность двигаться или говорить.

Основное внимание в исследованиях BCI уделялось восстановлению общих моторных навыков, таких как дотягивание, хватание или набор текста с помощью двумерного компьютерного курсора [2]. Однако в недавней исследовательской работе авторы [1] используют рекуррентную нейронную сеть (RNN) для декодирования воображаемых движений рукописного ввода в текст в реальном времени для обеспечения более высокой скорости передачи данных.

Благодаря этому новому интракортикальному BCI-подходу к декодированию воображаемого почерка участник исследования добился скорости набора текста 90 символов в минуту при ›99% точности с универсальной автозаменой. Несмотря на то, что участник исследования имел травму спинного мозга высокого уровня и был парализован от шеи до нижнего отдела, его скорость набора текста сравнима со скоростью набора текста на смартфоне.

Кодировать воображаемый почерк

Во-первых, нам нужно убедиться, что даже спустя годы после паралича нервная активность в моторной коре, вероятно, будет достаточно сильной, чтобы быть полезной для ИМК. Если это не так, тогда мы не сможем декодировать текст в реальном времени по воображаемому почерку. Таким образом, в качестве первого шага мы должны проверить, можем ли мы классифицировать символы по нейронной активности, воображая почерк.

Участник исследования представлял, как пишет от руки каждый символ по очереди, как если бы его рука не была парализована, следуя инструкциям на экране компьютера, как показано на рис. 1А; участника попросили попробовать каждый персонаж 27 раз. Таким образом, всего у нас есть 27 следов для каждого из 31 персонажа.

На рис. 1B показаны 3 основных компонента (ПК) нейронной активности для трех букв в качестве примера. Из рис. 1B ясно, что нейронная активность кажется устойчивой и повторяемой, но есть некоторая временная изменчивость (возможно, из-за скорости письма). Рис. 1C показывает результирующую нервную активность ПК после использования метода временного выравнивания для удаления временной изменчивости.

Чтобы увидеть, кодирует ли нейронная активность движения пера, авторы [1] попытались восстановить каждый символ путем линейного декодирования скорости кончика пера. Узнаваемая реконструкция форм букв (рис. 1D) подтверждает, что скорость кончика пера надежно закодирована в нейронной активности. Кроме того, визуализация нейронной активности t-SNE (рис. 1E) показывает, что символы, написанные одинаково, имеют более или менее похожее представление.

Наконец, используя простой классификатор k-ближайших соседей, авторы [1] смогли классифицировать символы по нейронной активности с точностью 94,1%. Таким образом, все вышеперечисленные исследования доказывают, что нейронная активность, соответствующая почерку, достаточно сильна, чтобы быть полезной для BCI.

Расшифровать воображаемый почерк в реальном времени

Теперь наступает захватывающая часть, позволяющая человеку с параличом общаться, воображая, как написать от руки предполагаемое сообщение. Авторы [1] обучили RNN преобразовывать нейронную активность в вероятности, описывающие вероятность написания символа в каждый момент времени. RNN также предсказывает возможность начала любого нового персонажа. Входной сигнал нейронной активности для RNN временно ограничивается (интервалы 20 мс) и сглаживается на каждом электроде. Как показано на рис. 2A, прогнозируемые вероятности могут быть либо просто заданы пороговым значением, либо тщательно обработаны с помощью функции автокоррекции.

Чтобы собрать обучающие данные для RNN, авторы записывали нейронную активность, в то время как участник воображал полные рукописные предложения, следуя инструкциям монитора компьютера. Первоначальная модель была обучена с использованием собранных 242 предложений за три дня. И чтобы преодолеть следующие проблемы, авторы адаптировали методы глубокого обучения для автоматического распознавания речи [3–5].

  • Точное время написания каждой буквы в данных обучения было неизвестно, что затрудняло применение методов контролируемого обучения.
  • Набор данных был ограничен по размеру по сравнению с типичными наборами данных RNN, что затрудняло предотвращение переобучения.

Работа RNN оценивается в течение пяти дней, каждый день содержит 7–10 предложений (не используются для обучения). После каждого нового дня оценки декодера данные этого дня кумулятивно добавлялись в набор обучающих данных на следующий день. На рис. 2B показаны два примера оценочных трейлов, демонстрирующих способность RNN декодировать предложения (ошибки выделены красным цветом, а пробелы обозначены «› »). Частота ошибок и скорость набора для пяти дней показаны на рис. 2С. Благодаря постобработке автокоррекции количество ошибок значительно снизилось. Авторы [1] также оценили производительность модели в менее сдержанной обстановке, позволив участнику исследования отвечать на открытые вопросы.

Ввод текста мышью с помощью компьютерного 2D-курсора (40 символов в минуту) [2] является наиболее эффективным подходом для интракортикального ИМК. Однако авторы [1] показали, что движение рукописного ввода может быть декодировано более чем в два раза быстрее с аналогичным уровнем точности. Причина лучшей производительности заключается в том, что соединения точка-точка труднее отличить друг от друга, чем рукописные буквы.

Интересно увидеть, как изменяющиеся во времени сложные модели движения, такие как рукописные буквы, принципиально легче декодировать, чем простые двухточечные движения. Также очень воодушевляет то, что подходы глубокого обучения к автоматическому распознаванию речи [3–5] адаптированы для этого варианта использования BCI.

Надеюсь, эта статья будет информативной и заставит задуматься. Спасибо :)

использованная литература

[1] Фрэнсис Р. Виллетт, Дональд Т. Авансино, Ли Р. Хохберг, Джейми М. Хендерсон и Кришна В. Шеной, Высокопроизводительная передача текста от мозга к тексту с помощью почерка (2021 г.)

[2] Четан Пандаринат, Пол Нуюджукиан, Кристин Х. Блейб и др., Высокопроизводительное общение людей с параличом с использованием интракортикального интерфейса мозг-компьютер (2017)

[3] Джеффри Хинтон и др., Глубокие нейронные сети для акустического моделирования в распознавании речи: общие взгляды четырех исследовательских групп (2012)

[4] Грейвс А., Мохамед А. и Хинтон Г., Распознавание речи с помощью глубоких рекуррентных нейронных сетей (2013).

[5] Сюн В. и др., Система распознавания разговорной речи Microsoft 2017 (2017 г.)