В последнее десятилетие исследователи из лаборатории Найта в Калифорнийском университете в Беркли продемонстрировали возможность реконструкции речи, языка и музыки непосредственно по активности мозга с помощью электрокортикографии и частотного анализа (Matin, 2018). Другие исследователи продемонстрировали способность реконструировать изображения с помощью фМРТ. Хотя результаты этих исследований впечатляют, их можно улучшить с помощью интерфейсов мозг-машина (ИМТ) с высоким пространственно-временным разрешением, методов машинного обучения для небольших наборов данных и обновленных подходов к реконструкции.

Во-первых, улучшение качества реконструкции требует общего улучшения как пространственного, так и временного разрешения ИМТ. ИМТ с высоким пространственным разрешением, которые фиксируют активность на уровне нейронов, могут обеспечить более точную реконструкцию изображений. Более высокое временное разрешение может улучшить реконструкцию аудио, поскольку аудиоданные сильно зависят от точности и точности во времени. Поскольку видео зависит как от пространственных, так и от временных данных, продвижение ИМТ в этих двух областях может привести к возможности реконструкции видео или даже воспоминаний непосредственно из мозга. Учитывая доступные сегодня технологии и наборы данных, неудивительно, что Shen et al. (2017, 2019) использовали данные, полученные при МРТ-сканировании мозга. Хотя фМРТ способна фиксировать активность мозга с более высоким пространственным разрешением, чем большинство других современных методов, у них очень низкое временное разрешение, а это означает, что их метод недостаточно надежен для восстановления аудио или видео. Neuralink — одна из компаний, которая в настоящее время разрабатывает ИМТ с высоким временным и пространственным разрешением (Musk, 2019). Данные предложенной ими технологии дадут очень точную запись активности в зрительной, слуховой, соматосенсорной и моторной коре. Такой ИМТ, который собирает мелкие нейронные и наносекундные данные, будет иметь большое значение для качества общих реконструкций мозговой активности.

Во-вторых, сложность формирования большого и хорошо аннотированного набора данных в таких областях, как биоинформатика, ограничивает развитие многих встроенных технологий машинного обучения. Традиционно для обучения глубокой нейронной сети (ГНС) используются десятки тысяч выборок (Мансимов, 2016). Напротив, самый большой набор данных фМРТ, использованный для реконструкции в Shen et al. (2019) состоял всего из 6000 обучающих выборок. Таким образом, обучение DNN для восстановления изображений непосредственно из данных фМРТ часто считается неосуществимым. Это ограничение можно преодолеть с помощью трансферного обучения — использования ГНС, предварительно обученных для решения одной проблемы, для решения другой, но связанной проблемы (Тан, 2018). Например, сеть, обученную распознавать автомобили, можно настроить на распознавание грузовиков. В случае декодирования изображений из мозга сеть, обученная обнаруживать объекты на изображениях, может быть настроена на восстановление изображений в целом. MobileNetV2, модель, разработанная в Google, предварительно обученная на наборе данных ImageNet с 1,4 миллионами изображений (Sandler, 2018), может уменьшить количество обучающих выборок, необходимых для задачи декодирования изображений мозга. Эту концепцию можно распространить на другие типы данных с помощью «AudioSet» (Gemmeke, 2017) и «YouTube-8M» (Abu-El-Haija, 2016). Использование трансферного обучения улучшит вероятные результаты реконструкции из-за относительно небольшого объема данных, доступных нейробиологам.

Наконец, качество восстановленных изображений можно улучшить с помощью генеративно-состязательных сетей (GAN). GAN — это архитектура нейронной сети, которая принимает два набора данных («настоящий» и «фальшивый») и содержит генератор и дискриминатор. Эти две модели обучаются вместе до тех пор, пока дискриминатор не сможет отличить настоящий от поддельного, то есть генератор создает образцы, неотличимые от реальных образцов. Этот метод, часто используемый для преобразования изображения в изображение, может использоваться для улучшения реконструированных изображений из активности мозга, чтобы они лучше соответствовали реальным изображениям, которые видит субъект. Предлагаемая архитектура GAN может быть отделена от основной архитектуры реконструкции или встроена в DNN для параллельного обучения модели. В первом случае мы обучаем предварительно обученную ГНС и собираем восстановленные изображения. Эти изображения вместе с исходными реальными изображениями затем передаются в отдельный GAN для преобразования реконструкций в изображения, которые выглядят более «настоящими». Во втором случае исходная архитектура реконструкции выступает в качестве генератора, и мы встраиваем дискриминатор. Восстановленные изображения будут напрямую переданы дискриминатору, так что функция потерь немедленно повлияет на генератор. Хотя эта архитектура более компактна, дискриминатор может отрицательно сказаться на качестве реконструкции, поэтому две предложенные архитектуры должны быть проверены эмпирически.

Три предложенных изменения и дополнения к архитектуре реконструкции, представленные на прилагаемом рисунке, могут значительно улучшить качество реконструкции активности человеческого мозга. С параллельным развитием лучших технологий нейробиологии и информатики возможность воспроизведения воспоминаний из нашего мозга может показаться не такой уж невероятной, как раньше.

использованная литература

Абу-Эль-Хайджа, С., Котари, Н., Ли, Дж., и Нацев, П. (2016). YouTube-8M: масштабный эталон классификации видео. АрХив. Дои: 1609.08675

Геммеке Дж. Ф., Эллис Д. П., Фридман Д., Янсен А., Лоуренс В., Мур Р. К., . . . Риттер, М. (2017). Набор аудио: онтология и помеченный человеком набор данных для аудиособытий. Международная конференция IEEE по акустике, обработке речи и сигналов (ICASSP), 2017 г.. doi:10.1109/icassp.2017.7952261

Мансимов, Эльман и др. «Создание изображений из подписей с вниманием». ICLR 2016, 29 февраля 2016 г., doi:arXiv:1511.02793v2.

Мартин, Стефани и др. «Расшифровка внутренней речи с помощью электрокортикографии: прогресс и проблемы на пути к речевому протезу». Frontiers in Neuroscience, vol. 12, 2018, doi:10.3389/fnins.2018.00422.

Маск, Э. (2019). Интегрированная платформа интерфейса мозг-машина с тысячами каналов. дои: 10.1101/703801

Сэндлер, Марк и др. «MobileNetV2: перевернутые остатки и линейные узкие места». Конференция IEEE/CVF по компьютерному зрению и распознаванию образов, 2018 г., 2018 г., doi:10.1109/cvpr.2018.00474.

Шен Г., Двиведи К., Мадзима К., Хорикава Т. и Камитани Ю. (2019). Сквозная реконструкция глубокого изображения активности человеческого мозга. Frontiers in Computational Neuroscience, 13. doi: 10.3389/fncom.2019.00021

Шен Г., Хорикава Т., Мадзима К. и Камитани Ю. (2017). Реконструкция глубокого изображения активности человеческого мозга. дои: 10.1101/240317

Тан, Чуанци и др. «Обзор глубокого трансферного обучения». Искусственные нейронные сети и машинное обучение — Конспект лекций ICANN 2018 по компьютерным наукам, 2018 г., стр. 270–279., doi: 10.1007/978–3–030–01424–7_27.