Музыка — это универсальный язык, преодолевающий культурные границы во всем мире. С быстрым развитием моделей больших языков (LLM) нейробиологи проявили большой интерес к изучению представления музыки в нашем мозгу.
В соответствии с этим интересом исследовательская группа из Google, Университета Осаки, NICT и Araya Inc. представляет Brain2Music в новой статье Brain2Music: реконструкция музыки на основе деятельности человеческого мозга. Этот подход использует MusicLM для реконструкции музыки. от мозговой активности, создавая композиции, напоминающие исходные музыкальные стимулы. Этот новый метод предлагает ценную информацию о взаимосвязи между активностью мозга и когнитивными и сентиментальными переживаниями человека.
Команда резюмирует свой основной вклад следующим образом:
- Мы реконструируем музыку из сканов фМРТ, предсказывая высокоуровневые семантически структурированные музыкальные вложения и используя глубокую нейронную сеть для создания музыки на основе этих функций.
- Мы обнаружили, что различные компоненты нашей модели генерации музыки предсказывают активность слуховой коры человека.
- Мы предлагаем новое понимание, предполагающее, что в слуховой коре есть значительное перекрытие вокселей, которые можно предсказать из (а) чисто текстовых описаний музыки и (б) самой музыки.
Сначала команда предварительно обрабатывает набор данных нейровизуализации музыкальных жанров, который содержит музыкальные стимулы из 10 жанров, включая блюз, классику, кантри, диско, хип-хоп, джаз, металл, поп, регги и рок. И они дополняют набор данных, добавляя текстовые подписи на английском языке, которые описывают музыку с точки зрения жанра, инструментария, ритма и настроения.
Процесс конвейера Brain2Music начинается с объединения многомерных ответов фМРТ в семантическое, 128-мерное встраивание музыки MuLan посредством линейной регрессии. Затем исследователи применяют MusicLM (Agostinelli et al…