Концептуальный синтез

Зак Жуковски

Биологически вдохновленный синтезатор рекуррентной нейронной сети (RNN) с двойной сетью. Одна сеть изучает нейронные состояния другой!

Концептуальный синтез — это новый метод синтеза звука, основанный на CCRNN [рекуррентных нейронных сетях, контролируемых концепцией] […], расширяющий устоявшийся метод синтеза звука, гранулярный синтез.
- Крис Кифер

Наша заявка на конкурс песни с искусственным интеллектом 2022 года, Монашки в мошпите», была создана с использованием примерно дюжины различных архитектур нейронных сетей. Это доставило CJ некоторые проблемы в аранжировке и производственном процессе, поскольку многие модели выпускают большие партии немаркированных и неструктурированных генеративных музыкальных клипов. Контроль над тем, как звуки генерируются и трансформируются, может сделать работу с ним более удобной. Музыка ИИ поднялась бы на новый уровень, если бы мы могли найти лучшие способы исследовать все интересные состояния звучания генеративных музыкальных моделей.

Больше, чем просто охота и собирательство

Обычно мы используем эти причудливые единицы долговременной кратковременной памяти (LSTM), чтобы помочь RNN изучить долгосрочные модели. Эти модели ведут себя интересным образом, но работают медленно и не позволяют сильно контролировать управление генерируемыми выходными данными. Здесь могут помочь Концепторы.

В предыдущих проектах наши веб-приложения Disproportionately Oversized Music Explorer (DOME) и Fake Feeling Curator были изобретены, чтобы ускорить процесс поиска и сбора, с которым приходится сталкиваться при просеивании часов предсказуемого общего контента — поиске тех немногих моментов оригинального звучания. сгенерированный материал.

Управление сетью с помощью других сетей

Концепторная архитектура — это нейровычислительный механизм, который впервые был представлен в техническом отчете Управление рекуррентными нейронными сетями с помощью концепторов, написанном Гербертом Джагером. Эта концепция исходит из перспективы вычислительной нейробиологии создания моделей, вдохновленных нервной системой, где основное внимание уделяется моделированию понимания работы человеческого мозга. Как следствие, эти модели действительно эффективны для тренировок и бега.

Резервуарные слои RNN остаются случайно инициализированными и никогда не обучаются. Концептуальный синтез использует плотно связанные слои нейронов, называемые Conceptors, для загрузки случайно инициализированных состояний RNN, адаптированных с короткими входными звуковыми паттернами. Существуют практические ограничения продолжительности времени, которое они могут моделировать. Их сила заключается в степени контроля, доступной нам как музыкантам, что делает их мощным инструментом для реконструкции и преобразования микрозвуковых волн.

Гранулярный синтез

Когда звук сэмплируется и сокращается до продолжительности 1–100 миллисекунд, это называется уровнем микрозвука. Эти небольшие фрагменты микрозвука часто называют зернами. Их можно накладывать друг на друга и воспроизводить с разной скоростью. Многие типы звука могут быть получены путем модуляции потока семплированных зерен.

Кертис Роудс начал сочинять песни таким образом еще в 1970-х годах, используя большие компьютеры с перфокартами, хотя он описывает их просто как «результаты».

Дороги опубликовали полную книгу по микрозвуку, а Учебник по компьютерной музыке намного больше, чем средний учебник.

Сегодня гранулярный синтез присутствует во многих VST и позволяет использовать удивительные эффекты растяжения времени и смещения высоты тона в Ableton Live.

Производитель гранулированного бита, Qebrus, поначалу вдохновлял Dadabots. Этот танцевальный проект на инопланетную тематику пробуждает фрагментарные слои точного микрозвука баса. Их визуальная микротекстовая игра Unicode тоже похожа на древние инопланетные руны!

▄͜҉̸͖̤̹̯̞̘͕͖̺̬̩̪͉┘͉̭̙̩͚̱͔̻̤̯̼̖́́̀͘͝┐̴̨͕̯̤̥̤̠͖̞̦͍͙̀͘͠█̼͎͙̞̤̠̝̥̖͍̬̘̘̺̞͎͎͚̕̕͘͝▄̶̨͓͉͈̬͘┘҉̨͏̼̤͇̥͎̗̳̞͕͖͖̱͘─̢͎̭̙͔̠͢͟͡█͏͉̳̣̹͖̪̟̯̪̖̘̟̬̬̕͢┐̸̨̫̥̯̦̩̰̗̕͟█͏̢̀́͏̩͇̬̗̩̙͔▄̶̱͍̺̗̩̬̬̟͇̪͘┘̷̶͙͉̩̟̰͇─̮͎͉̜͙̠͎̺̳̺̗͍̕͡ͅ▀̵̸̢̜̺̼͇͚̙͔̲̺̙̮ͅ┐҉҉̸̬̭͙̘̩̘͎̙̱͓̕͞ͅ─͏̖̩͈͢▄̤̜͉̣̠̯͝͝ͅͅ┘̨̧̤͖̹̗͓̮̙̼̮̗̘̠͘͟͟─̨̬̼̰͙̥̭́͠┐͢҉̴̥̫̮͚̯͍̮̫̤́█̠͓̥̦͎̝̪͇̣̻̗͎͙͖̜͚͜͠▄̶̸̹̜̖̮̖̪̜̲̼̮͚͔̕┘҉̧͍͔̮̠͎̦̹̮͖̗̯͉̰̜̕͝─̢̤͍̫͔̹͔̻́ͅ▀̧̰̦͚͍͡͝ͅ┐̸̵̢̨̙̹͚̰̺̗̮͎͈̱͎͘ͅͅ─̢͎̫͍͚͖̤͉̗̜͎͓͓̲̝̟̦̠̀ͅ▄̡̛͏̰̲̫̥͍͙͚̟̪̦̀┘͠҉̷͉̠̬̰͙̳̺̝̻̘̣̹̼─̛͚̘͙̪͖͝͞█̴̧̫̘͖̙̱͎̭̱̀͟┐̢̬̗̠̟͎̘̳͇͚͉͍̱█̴̵̷̞͍̥̫̼̩͚͉̳̪̪̱̀ͅ▄̷̥͇̫̥͉͉͔̪̟͝┘̩͇̼͙͖̭̱̞̼͝ͅ─̷̶̧̲̮͎̩̗͈█̷̖̯͇̮͇̘̥́▄̶̵̶͔̖̱͙̤̜͉̺̙͙͖͕̻̰͝͠ͅͅ┘̡̙̣̤̥̰͉͔̱̲͎̲̭̩͔̕ͅ─̶̶͏̻̝̣͖̺̰̙̮̠̪̜̺͖̝̝̖̖͠█̞͉̤̯̝̤̩̯͎͙͍͎̜̝̱̪̠͉̀͘͜͞┐̶̼̹̻̣͎́█̛̩̪͍̳̮͈͇̝̗̬̝ͅ▄҉̸҉̟͇̻̲̲͈̩͉̭͚̳̞͔̺́┘̸̧̝̼̱͖̱̖͙̰͍͙̹̖̝̦͚͇̗͘─̕͏̡̞̼͖͚͝͞▀̶̧͙͚̪̘͈̞̖͖̠̘̮̳͚͈̕┐̷̶̠̫̗͈̖̗̠͉̼̘̀͝─̶̱͉̲̰̯̩͈̱͍̗̳͍͎͚̫͇̟̹̲͞͠͡꘠̡̨̨̛̲̣̱̱̲͖͔̖̼͕̱͉̬̤͔̦͇̞̗͠꘤̶̪̳̣͙͎͍̜̞̩̯̘̲͔̥́͡꘧̷̴̶̡̘̳͈͉̪͇̯̹̱̮͈̪ꘫ̡̰̱̘̲̼̬̤̙͔̫̰̝̠͜͢͞ͅꕪ̛̕҉͖͙̩͓͇̰̳̪̜͉̬̺̰͇̺͎͞ͅꕴ̛̝͎͈̰̜͚̹̜͈͍̰̥̻̠̖̯́ͅꖀ̴͢͞͏͏̠̝̜̙̹̣͈̬͔̗̯̤̺̱̮̮ꖊ̰̼̬͎̪̱͎̰̭̘́͘ͅꖙ̢͎̠̗͔̯̠̯ꖥ̷̘̪̱̫̦̮͔̟̱̝͎͙͝͡ꖷ͝҉̨̩͔̫̥͖̕ ̸̱̩̰̥̯͔̫̦̪̤͔̩͔̝̀
͓̜̮͍͍̙̪͍̯͖̤͎̖͟͡ͅꖸ͏̸̩̠͉̫̫̳̩̗͡ͅꗏ̵̹͚̟̳̻̪̲̟̰͖̲͈̺͔̙͔͎̪̙́͘͢ꗑ̗͓̖͖̹͘͠ꗢ̨̙̗̰̟̹̗̜̮̖̺͕̣̣͜ꗳ̀̕͞҉̤̭̭̰̤̗͕͇̟̺̭̤̩▄̷̧̛̱̻͔┘̧̨̡̢҉͈̮̰̜͚͙̝̘̥─̨̨̘̣̬̱̙̦̕͜͡█̧̢̙̖̮͙̲͈̬̥̲́͝ͅ┐́͞҉̡̬̱̫̰̪̻̰█̶̢̟̣̳̲͙͙͓̤̯̱̜͢▄̧͢҉̧͎̞̥͖̜͉͖̟͔͙͠┘́҉̶͍͖͎̩͎͚͙̺͔̤̩̘̪̼ͅ─́̀͢҉̢͕̭̬̙̩̱̣̣ͅ▀̢̪̺̫͙͇͕͇͉̠͘┐͉͇͙̭̟̙̯̫̯͟͢͠─̶̧͝͏̝̪̼͔̺̗̘͟▄҉̶̹̯̮͢͡┘̢̨͉̘̤̹̳̹͖̟̼͚̟̮͜͠ͅ─̴͜҉͏̞̜͈̰̤̖̺̼͈͙̺͔͇ͅ█̵̨̛̛̙̰̤͇͔̫̞͙̠̙̬͈̻̟̭█̷̢͎̻̞̲͎̘̞̀̕͝▄̵̗̺͎͙͔̘̬͘̕͡┘̸̼͈̗̠̜̀̕▄̴̵̧̲͔̰̥͔̣̰̝͇͇̻͍͔̣͞͝┘̸̶̧̫̬͚̯̫͔̻̰̼̣͖͈̬̠́͠ͅ─̧̛͉̯͈͉̕͡█̸̵̝̭̻͎̠̠̗̱̞̺̦̬̱͇̮̹̞́́͘┐̧͏͔͔͇̦̜█̴̴͉̖̤͔̲̲̻̞̗͍͕͇̭̬͎͘͟͡▄͠͏̫̳̼̪͍̥̮͚͚̝͈͎̙͓̹̪̯̞̩̕┘̢̫̟͈̘̺̝͇͉͙͞͡─̨̡̼̖͎̮̫͙͉͔̟͈̹̺̤̗̩͟▀͏̸̫̘̮̥͚̀́ͅͅ┐҉̷͕̰̯̰̺̜̥̟͉̣͙̰̲̫̞̟̤̭͉͡─̡͓̪͍̬̩̻͚̼͈͖̰̲̙̝̟͈̗̜͜ͅ▄̴͔̲̱̩̩͇̼͖͙̟͔͞┘̢̛̪̻͓̜̘͙͈͘͜─̨̱̝̘̖̻̳̜̟͢_̵̵̗̖͕̭̤̞̟̕͡█͏̷̩̲͎͓̩̺̫͍͎̭͉̹█̢͔̖̪̤̕͟▄̧҉̯͇̖̞͇͓͎͉͔̗̼̤͓̹̠┘̴̺̙̝̱̮̗̮̟͕̭͇̘͎̞̦͓̕͘ͅ┐̸̸̛̩̞͉̮͎̙̰̹̣̼̯̱̼̗̬̮̰͉̕͞ͅ█̴̖͙̻̟͍́▄̧̠͈̰͍̩͍͍̩͖̤͉͙̪̫̻̹̺̟̀͠┘̲͕͍̲̰̳̻͍̺͎̲̜͠͡─̵͙̩̭̭̩̕█̕͢͏̛͚͕͔̹̦̱̲͜┐̸̰͎̝̘̦͠█͏̡̡̝̻̙̙̦͓̦̣̥͢͞_͇̲̦͉͙͈̪̫̗́͘▄̶̸͖͕͉̥̞̺͙̳̻̝̞̘̘̮̻̩̦̠̭┘̵̷̴͓͙̙̟̠̹͕̘̥͎̙̞̹─̵̻͍̘̩̮͚̹͙͍͓͇͚̘̀́͟▀̸̨̜̣̱̻͕͞ꖀ̵̯̜͇͓͢ꖊ̨̛̱̣̜̮̠̩̟͎͟͟ꖙ̛͝҉͙̘͓͔̦͇̲͕̮͉̥̲ꖥ̧̝̪̤̮͖͖̳̳̝͍͡ͅ ̳̖̭̗̖͚̣͈̖̬͕̳̖̰͕̯̪͜͝ͅꖷ҉͘҉̯̩̱̘̜͙̞ ̴̴̴̣̼͇̘͇͖͓̺ꖸ̵̨͎͕̥̦̱̬̼̝̞̰̼͙̖͖̥̣͡͠͡ ̨̛͎̥̤͙̭͍̻̱̣̰͝ ̸̱̠̗̪͇̹̳̗̟̥͎̼͘͝ͅꗏ̡͝͞҉҉͖̯͔͓̩͙̖͍̹ꗑ̸̡̦̮̰̪̜̼̖̫̀ ̨͎̺̜̫̖͕̱̖̪͈̖̳͘͞ꗢ̡͈̣̳̣̠̫̼̜͘͠ꗳ̶͚̤̱͖̱͓͍̠̯͓̼̻̙͖̮̣͜ͅꘋ̴̨̢̛̜̖̠̠̳ ̛̹̘͈͙͈̹̮͜ ̣̻̯̘̥̠͚̘̠̼͓́̕ꘐ̵̼̺͉̫̮͈̲͉̙ꘛ̴̨̼̟̺̪͍͡ꘞ҉̫̜͙͔̩͞꘠̡̝̦̗̮͜ ͉͈̼̼͙͓̻̩̼̕ ̷̧̘̖̣̗̦͎̞̗̳̜̮꘤̷̸̧͎̜̙̟̭͖̝̩̘̘̙̜̤̬̦̖͞͞ͅ꘧̵̸̗̹̼͠ͅꕉ̷͏̺̗̲̮͙̯̱̪̼̳̩̼̤͍͙̻̙͉ꕊ̤̤̩̲̪̭͓̫̪̞̤̝̯̯͍̪͔̺̟͢͞ꕤ̯̰͈̪͘͢͟͞ ̸͟͏̡̲̬͖͇͈͈̘̯̭̥͙̰̭͓͎̻̦̘

▶︎ ⊶⊑∷⌊∴⊹∵⌉∷⊒⊷ | qebrus (bandcamp.com)

Аудиосинтез с концепторами

Использование CCRNN для управления традиционными синтезаторами с генераторами и волнами, генерируемыми нейронами, может быть отличным способом избежать изучения долгосрочных паттернов, если вы хотите создать монофонический инструмент. Поскольку микрозвуки сэмплируются из других звуков, цель этого проекта состояла в том, чтобы выделить эти сэмплы микрозвука из слоя нейронной сети — позже музыканты могут трансформировать и объединять зерна в более длинные паттерны. В следующих разделах дается обзор метода Криса Кифера для обучения музыкальных синтезаторов CCRNN.

Аудио проходит, но ‘x’ никогда не обучается

Резервуар остался прежним

Концептуальный синтез использует быстрые линейные плотные слои, называемые Conceptors, для загрузки состояний RNN, обученных на коротких аудиоклипах. Группа случайно связанных нейронов в x называется резервуаром. Резервуар использует нелинейную активацию для создания сложного поведения. Это исследование показывает, что можно использовать хаос с хорошей инициализацией ваших случайных параметров, но в настоящее время существуют практические ограничения на продолжительность времени, которое они могут моделировать.

Создание случайных резервуаров

Чтобы рассчитать Conceptor, который будет влиять на резервуар для воспроизведения обученного звукового сигнала, корреляционная матрица состояния резервуара R сначала рассчитывается путем фильтрации случайного хаоса с большим количеством хаоса:

При реализации кода из оригинальной статьи я изо всех сил пытался понять, как неинтуитивные гиперпараметры, такие как Спектральный радиус и Коэффициент связности, объединяются для построения начальных весов графа, поэтому Я сделал эту визуализацию строящегося резервуара. Он начинается со статического шума и заканчивается разреженной матрицей справа.

Спектральным радиусом резервуара φ(и скоростью утечки β) можно управлять во время работы, чтобы создавать новые звуковые возможности!

Концептуальная матрица изучается для каждого зерна

Выходной плотный слой изучает случайные состояния резервуара для каждого шаблона и создает преобразование, которое минимизирует среднее затухание (ошибка восстановления нормализованного шаблона) между исходным звуковым шаблоном и выходным сигналом резервуара после того, как он управляется этим шаблоном.

Визуализация

До сих пор с помощью концептуального синтеза успешно генерировались только короткие перкуссионные сэмплы. Существует множество расширенных методов синтеза, которые могут выполнять Концепторы, такие как интерполяция скрытого пространства и логическая логика (например, генерация звука A + звук B), чтобы объединить себя. Некоторые ключевые гиперпараметры имеют интересные музыкальные эффекты при рендеринге звука.

Важные гиперпараметры

Обучение модели очень чувствительно ко всем гиперпараметрам. Можно запустить алгоритм случайного или генетического поиска, чтобы помочь найти лучшие настройки на основе каждого набора аудиоданных.

Спектральный радиус

- спектральный радиус → стабильная динамика
+ спектральный радиус → хаотическая динамика

Коэффициент утечки

Изменяя скорость утечки при рендеринге, можно контролировать высоту и тембр генерируемого звука.

+ скорость утечки → низкая инерция, низкая память о предыдущих состояниях
- скорость утечки → высокая инерция, высокий уровень отзыва предыдущих состояний

Скорость

Параметр рендеринга speed определяет, как ожидать загрузки нового Conceptor для следующего изученного шаблона. Сгенерированный звук будет инвертирован, если значение отрицательное. Вот пример очень скучно выглядящей пульсовой волны.

Что дальше?

Будущие исследования включают объединение глубоких пластов-коллекторов с концепторами и диагональными концепторами.

Глубокие резервуары для изучения долгосрочных закономерностей

Deep Echo State Networks — это родственный метод вычисления резервуара, который использует несколько уровней RNN для изучения долгосрочных зависимостей. Известно, что они работают как замена однослойным резервуарам, обсуждаемым в этом сообщении в блоге. Мне интересно, может ли это помочь узнать более 1-2 периодов волны в каждом паттерне и загрузить больше для каждой сети.

Концепторы Diagonal снизят требования к памяти

Вариант под названием Diagonal Conceptors предлагает практичную альтернативу Conceptors. Диагональные концепторы — это диагональные матрицы, поэтому их можно записать в виде векторов, называемых весами концепций. Показано, что в большинстве случаев они дают такие же хорошие результаты, как и Концепторы.

Насколько я знаю, они никогда не тестировались на музыке!

Открытые вопросы

Применяется ли логическая логика к диагональным концептуальным элементам, как и к обычным концептуальным элементам, и сколько общих свойств имеют эти методы?

Можно ли обучить концептуальный синтезатор на чем-то другом, кроме необработанных звуковых паттернов, например, на обученной модели RAVE (Realtime Audio Variational AutoEncoder) до?

Массовые исследования

Мы работаем над улучшением этих методов, и у нас запланировано множество интересных экспериментов, которые мы проведем на массивных кластерах графических процессоров на Stability.ai для обучения и обмена новыми архитектурами, такими как Conceptors и другими.

Концептуальный синтез

Вопросы по теме