Мозговой компьютерный интерфейс для декодирования речи парализованного человека. Обзор статьи

🧐 Кратко:

Анартрия (неспособность артикулировать речь) мешает парализованным людям взаимодействовать с миром. Возможность декодировать слова и предложения непосредственно из мозговой активности (ЭКоГ) может дать таким пациентам возможность общаться.

Авторы строят модель искусственного интеллекта, чтобы предсказывать слово на основе нейронной активности. Они достигают точности 98% для распознавания речи и 47% для классификации слов из 50 классов.

Нейропротез для декодирования речи у парализованного человека с анартрией —бумага 2021 г.

🤿 Мотивация:

Авторы делят декодер речи на два подмодуля: обнаружение речи и классификацию слов. Первый предсказывает смещение речи, а второй предсказывает вероятности «воображаемых слов».
Затем они строят 50 предложений из 50 слов и обучают языковую модель предсказывать следующее слово из предыдущих.
Сочетание предсказаний с языковой моделью позволяет добиться низкого уровня ошибок в словах.

🍋 Основные идеи.

Настройки экспериментов

Настройте ЭКоГ с 16 * 8 электродами на левой сенсомоторной области.
Попросите больного воспроизвести в голове слово, которое он видит на экране. (обособленное словообразование). Таким образом, мы маркируем данные для обучения модели.

Предварительная обработка данных

Обычная средняя референция.
Извлеките высокую гамму (70–150 Гц) с каждого электрода и получите ее огибающую. Гамма-частоты ЭКоГ предлагаются в качестве хороших характеристик для прогнозирования движения и речи.
Примените z-оценку для каждого электрода с большим окном (30 секунд) — это делается для учета сдвигов сигнала во время эксперимента.

🤖Модели

Модель обнаружения речи.

Используйте модель LSTM для прогнозирования вероятности воспроизведения воображаемой речи (обнаружение попытки речи). Затем примените пороговое значение для получения t *

Модель классификации слов.

Авторы использовали свертки + LSTM для предсказания 50 классов.
Эта модель получает входное окно размером [t*-1, t* +3] для дальнейшей классификации.
Был применен трюк Kaggle: обучить 10 таких моделей и усреднить их результаты. В результате они улучшают производительность. К сожалению, я не нашел информации о точности для каждой модели в отдельности.

📈 Результаты эксперимента / Ключевые выводы:

Исследуйте влияние областей мозга на предсказание каждой модели.

Распознавание речи: дорсальная часть сенсомоторной коры. Это связано с речевым намерением.
Классификация слов: вентральная часть сенсомоторной коры. Это языковой регион.

Результаты:

Распознавание речи: 98 %, классификация слов: 47,1 %
Частота ошибок в словах при предсказании предложений: 60 %
Частота ошибок в словах при предсказании предложений с языковой моделью 25,6 %

✏️ Мои заметки:

Хорошая идея использовать словарь из 50 наиболее часто встречающихся слов, потому что это позволяет людям удовлетворять основные потребности в общении.
Использование предварительно обученной языковой модели только для 50 возможных предложений кажется уловкой и взломом. Модель просто соответствует этим предложениям. Мы должны учитывать точность без языковой модели!
Использование ансамбля из 10 ANN похоже на трюк Kaggle.
Трудно сказать о стабильности, если мы сравним производительность моделей, которые были обучены на разном количестве данных (они сравнивали стабильность, добавляя больше исторических данных для обучения модели).

Дальнейшее расследование:

Для проверки стабильности мы должны обучить модель на некоторых данных, а затем использовать эти веса для прогнозирования через некоторое время.
Мы можем использовать другую архитектуру для обнаружения речи. Сквозная бинарная классификация. Полностью временная сверточная архитектура. Получите тот же порог.
Используйте усовершенствованные модели преобразования вместо RNN для временной агрегации на этапе классификации слов.
Очень важно сочетать обнаружение речи и классификацию слов, потому что я думаю, что они могут иметь одинаковые функции.
Интересно использовать настоящую модель прогнозирования языка, которая могла бы работать не с ограниченным набором из 50 предложений, а динамически предлагать наиболее вероятные слова на основе истории (1, 2, … последние слова)

Этот обзор был сделан совместно с Алексеем Тимченко