🧐 Кратко:
Анартрия (неспособность артикулировать речь) мешает парализованным людям взаимодействовать с миром. Возможность декодировать слова и предложения непосредственно из мозговой активности (ЭКоГ) может дать таким пациентам возможность общаться.
Авторы строят модель искусственного интеллекта, чтобы предсказывать слово на основе нейронной активности. Они достигают точности 98% для распознавания речи и 47% для классификации слов из 50 классов.
Нейропротез для декодирования речи у парализованного человека с анартрией —бумага 2021 г.
🤿 Мотивация:
- Авторы делят декодер речи на два подмодуля: обнаружение речи и классификацию слов. Первый предсказывает смещение речи, а второй предсказывает вероятности «воображаемых слов».
- Затем они строят 50 предложений из 50 слов и обучают языковую модель предсказывать следующее слово из предыдущих.
- Сочетание предсказаний с языковой моделью позволяет добиться низкого уровня ошибок в словах.
🍋 Основные идеи.
Настройки экспериментов
- Настройте ЭКоГ с 16 * 8 электродами на левой сенсомоторной области.
- Попросите больного воспроизвести в голове слово, которое он видит на экране. (обособленное словообразование). Таким образом, мы маркируем данные для обучения модели.
Предварительная обработка данных
- Обычная средняя референция.
- Извлеките высокую гамму (70–150 Гц) с каждого электрода и получите ее огибающую. Гамма-частоты ЭКоГ предлагаются в качестве хороших характеристик для прогнозирования движения и речи.
- Примените z-оценку для каждого электрода с большим окном (30 секунд) — это делается для учета сдвигов сигнала во время эксперимента.
🤖Модели
Модель обнаружения речи.
- Используйте модель LSTM для прогнозирования вероятности воспроизведения воображаемой речи (обнаружение попытки речи). Затем примените пороговое значение для получения t *
Модель классификации слов.
- Авторы использовали свертки + LSTM для предсказания 50 классов.
- Эта модель получает входное окно размером [t*-1, t* +3] для дальнейшей классификации.
- Был применен трюк Kaggle: обучить 10 таких моделей и усреднить их результаты. В результате они улучшают производительность. К сожалению, я не нашел информации о точности для каждой модели в отдельности.
📈 Результаты эксперимента / Ключевые выводы:
Исследуйте влияние областей мозга на предсказание каждой модели.
- Распознавание речи: дорсальная часть сенсомоторной коры. Это связано с речевым намерением.
- Классификация слов: вентральная часть сенсомоторной коры. Это языковой регион.
Результаты:
- Распознавание речи: 98 %, классификация слов: 47,1 %
- Частота ошибок в словах при предсказании предложений: 60 %
- Частота ошибок в словах при предсказании предложений с языковой моделью 25,6 %
✏️ Мои заметки:
- Хорошая идея использовать словарь из 50 наиболее часто встречающихся слов, потому что это позволяет людям удовлетворять основные потребности в общении.
- Использование предварительно обученной языковой модели только для 50 возможных предложений кажется уловкой и взломом. Модель просто соответствует этим предложениям. Мы должны учитывать точность без языковой модели!
- Использование ансамбля из 10 ANN похоже на трюк Kaggle.
- Трудно сказать о стабильности, если мы сравним производительность моделей, которые были обучены на разном количестве данных (они сравнивали стабильность, добавляя больше исторических данных для обучения модели).
Дальнейшее расследование:
- Для проверки стабильности мы должны обучить модель на некоторых данных, а затем использовать эти веса для прогнозирования через некоторое время.
- Мы можем использовать другую архитектуру для обнаружения речи. Сквозная бинарная классификация. Полностью временная сверточная архитектура. Получите тот же порог.
- Используйте усовершенствованные модели преобразования вместо RNN для временной агрегации на этапе классификации слов.
- Очень важно сочетать обнаружение речи и классификацию слов, потому что я думаю, что они могут иметь одинаковые функции.
- Интересно использовать настоящую модель прогнозирования языка, которая могла бы работать не с ограниченным набором из 50 предложений, а динамически предлагать наиболее вероятные слова на основе истории (1, 2, … последние слова)
Этот обзор был сделан совместно с Алексеем Тимченко