Привет, мир!
Мы - Фидан Самет, Огуз Бакыр и Аднан Фидан. В рамках проекта Основы машинного обучения мы работаем над переносом и предсказанием музыкальных жанров. Мы будем писать в блогах о наших успехах на протяжении всего проекта, и это пятая из нашей серии блогов. В этом посте будут рассмотрены разработки в области прогнозирования музыкальных жанров и передачи музыкальных жанров. Итак, приступим!

Ранее в Tune It Up…

На прошлой неделе, когда мы изменили проектную область нашей темы, мы обсудили наш измененный набор данных, последствия алгоритмов машинного обучения для предсказания музыкального жанра и исходные результаты переноса музыкального жанра. Вы можете найти блог прошлой недели здесь. На этой неделе мы рассмотрим базовые результаты другого алгоритма прогнозирования музыкального жанра и модели CycleGAN для передачи музыкального жанра.

Музыкальный жанр передачи

CycleGAN, который мы решили использовать в предыдущем посте, представляет собой метод обучения неконтролируемых моделей преобразования изображений в изображения с помощью архитектуры GAN. Эта модель использовалась во многих переводах изображений в изображения и дает впечатляющие успешные результаты. Мы стараемся применить это в сфере музыкального жанра. Результаты исследований представлены ниже.

Архитектура CycleGAN состоит из двух сетей GAN, расположенных циклически. Эта сеть содержит две свертки с шагом 2, несколько остаточных блоков и две свертки с частичным шагом и шагом 1/2. Это показано на рисунке ниже.

На этом этапе мы отредактировали входные и выходные форматы модели CycleGAN. С этим изменением, которое мы внесли, CycleGAN может принимать файлы формата MIDI в качестве входных данных для модели и создавать файлы в том же формате, что и выходные данные. Мы обучаем эту отредактированную модель для получения базовых результатов. Однако, как и следовало ожидать от метода глубокого обучения, на это требуется время.

Прогноз музыкального жанра

До этого этапа для предсказания музыкального жанра мы пробовали три различных метода: наивный байесовский метод, k-ближайших соседей и случайный лес. На этой неделе мы добавили к этим методам многослойный классификатор Perceptron² (MLP). MLP, алгоритм обучения с учителем, представляет собой метод классификации, который работает с несколькими уровнями; входной слой, скрытый слой, выходной слой. В этом методе, допускающем параллельную обработку с использованием нескольких нейронов, повышение точности зависит от увеличения количества итераций.

После настройки параметров модели мы получили наилучшее значение точности 85%. Мы получили более высокое значение точности этой модели по сравнению со всеми методами, которые мы пробовали до сих пор. Мы планируем развивать метод MLP.

На этой неделе все. Спасибо, что прочитали, и надеемся увидеть вас на следующей неделе!

использованная литература

[1] Чжу, Дж. Ю., Парк, Т., Изола, П., и Эфрос, А. А. (2017). Непарный преобразование изображения в изображение с использованием согласованных по циклу состязательных сетей. В материалах Международной конференции IEEE по компьютерному зрению (стр. 2223–2232).

[2] Многослойный перцептрон - Википедия. Https://en.wikipedia.org/wiki/Multilayer_perceptron

Прошлые блоги