🧐 Кратко:

Анартрия (неспособность артикулировать речь) мешает парализованным людям взаимодействовать с миром. Возможность декодировать слова и предложения непосредственно из мозговой активности (ЭКоГ) может дать таким пациентам возможность общаться.

Авторы строят модель искусственного интеллекта, чтобы предсказывать слово на основе нейронной активности. Они достигают точности 98% для распознавания речи и 47% для классификации слов из 50 классов.

Нейропротез для декодирования речи у парализованного человека с анартрией —бумага 2021 г.

🤿 Мотивация:

  • Авторы делят декодер речи на два подмодуля: обнаружение речи и классификацию слов. Первый предсказывает смещение речи, а второй предсказывает вероятности «воображаемых слов».
  • Затем они строят 50 предложений из 50 слов и обучают языковую модель предсказывать следующее слово из предыдущих.
  • Сочетание предсказаний с языковой моделью позволяет добиться низкого уровня ошибок в словах.

🍋 Основные идеи.

Настройки экспериментов

  • Настройте ЭКоГ с 16 * 8 электродами на левой сенсомоторной области.
  • Попросите больного воспроизвести в голове слово, которое он видит на экране. (обособленное словообразование). Таким образом, мы маркируем данные для обучения модели.

Предварительная обработка данных

  • Обычная средняя референция.
  • Извлеките высокую гамму (70–150 Гц) с каждого электрода и получите ее огибающую. Гамма-частоты ЭКоГ предлагаются в качестве хороших характеристик для прогнозирования движения и речи.
  • Примените z-оценку для каждого электрода с большим окном (30 секунд) — это делается для учета сдвигов сигнала во время эксперимента.

🤖Модели

Модель обнаружения речи.

  • Используйте модель LSTM для прогнозирования вероятности воспроизведения воображаемой речи (обнаружение попытки речи). Затем примените пороговое значение для получения t *

Модель классификации слов.

  • Авторы использовали свертки + LSTM для предсказания 50 классов.
  • Эта модель получает входное окно размером [t*-1, t* +3] для дальнейшей классификации.
  • Был применен трюк Kaggle: обучить 10 таких моделей и усреднить их результаты. В результате они улучшают производительность. К сожалению, я не нашел информации о точности для каждой модели в отдельности.

📈 Результаты эксперимента / Ключевые выводы:

Исследуйте влияние областей мозга на предсказание каждой модели.

  • Распознавание речи: дорсальная часть сенсомоторной коры. Это связано с речевым намерением.
  • Классификация слов: вентральная часть сенсомоторной коры. Это языковой регион.

Результаты:

  • Распознавание речи: 98 %, классификация слов: 47,1 %
  • Частота ошибок в словах при предсказании предложений: 60 %
  • Частота ошибок в словах при предсказании предложений с языковой моделью 25,6 %

✏️ Мои заметки:

  • Хорошая идея использовать словарь из 50 наиболее часто встречающихся слов, потому что это позволяет людям удовлетворять основные потребности в общении.
  • Использование предварительно обученной языковой модели только для 50 возможных предложений кажется уловкой и взломом. Модель просто соответствует этим предложениям. Мы должны учитывать точность без языковой модели!
  • Использование ансамбля из 10 ANN похоже на трюк Kaggle.
  • Трудно сказать о стабильности, если мы сравним производительность моделей, которые были обучены на разном количестве данных (они сравнивали стабильность, добавляя больше исторических данных для обучения модели).

Дальнейшее расследование:

  • Для проверки стабильности мы должны обучить модель на некоторых данных, а затем использовать эти веса для прогнозирования через некоторое время.
  • Мы можем использовать другую архитектуру для обнаружения речи. Сквозная бинарная классификация. Полностью временная сверточная архитектура. Получите тот же порог.
  • Используйте усовершенствованные модели преобразования вместо RNN для временной агрегации на этапе классификации слов.
  • Очень важно сочетать обнаружение речи и классификацию слов, потому что я думаю, что они могут иметь одинаковые функции.
  • Интересно использовать настоящую модель прогнозирования языка, которая могла бы работать не с ограниченным набором из 50 предложений, а динамически предлагать наиболее вероятные слова на основе истории (1, 2, … последние слова)

Этот обзор был сделан совместно с Алексеем Тимченко