Привет, мир!
Мы - Фидан Самет, Огуз Бакыр и Аднан Фидан. В рамках проекта Основы машинного обучения мы работаем над прогнозированием и переносом стилей года выпуска песен. Мы будем писать в блогах о наших успехах на протяжении всего проекта, и это третья из нашей серии блогов. Наборы данных, рассмотренные в соответствующих работах наших задач, будут рассмотрены в этом посте. Итак, приступим!

Ранее в Tune It Up…

На прошлой неделе мы рассказали о методах и подходах, рассмотренных в родственных работах наших задач. Вы можете найти блог прошлой недели здесь. На этой неделе мы рассмотрим наборы данных, которые планируем использовать в нашем проекте.

Наборы данных

1. Набор данных "Миллион песен "¹

В этом наборе данных авторы выполняют прогноз песенного года в качестве примера. Поскольку они выполняют предсказание песенного года, им нужно много музыки для извлечения признаков из большого интервала лет. Позже эти особенности используются для моделей классификации. Ниже приведена таблица полей ввода данных в этом наборе данных.

Этот набор данных, как следует из названия, включает 1.000.000 записей песен без каких-либо реальных аудиофайлов. Вместо аудиофайлов мы можем использовать поле segment_timbre для тембральных характеристик. Функции тембра можно использовать как для классификации, так и для передачи стиля песен. Помимо характеристик тембра, мы можем использовать поля года и жанра для классификации песен по десятилетиям, а также по десятилетиям и жанрам. Поскольку поле жанра не заполнено в MSD, мы можем создавать их жанры, используя теги MusicBrainz² со скриптом³. Ниже представлена ​​таблица распределения жанров на MusicBrainz.

Используя теги MusicBrainz, мы можем добиться распределения жанров, как показано в таблице выше. Видно, что большинство работ относятся к жанрам «классический поп и рок», «фолк» и «рок и инди». Ниже приведены графики треков MSD с информацией о годе выпуска.

MSD имеет искаженное вправо распределение в графике распределения по годам выпуска, что приводит к очень несбалансированному распределению по записям. Из-за этих несбалансированных записей мы стремимся использовать жанры с временным интервалом с 1965 г. по настоящее время. В дополнение к этому ограничению мы стремимся использовать временные интервалы с 10-летним скачком в качестве десятилетий. Несмотря на эти временные интервалы и жанровые ограничения, мы можем выполнить классификацию песен и передачу стилей.

2. FMA: набор данных для музыкального анализа⁴

FMA содержит реальные аудиофайлы для каждой записи, но он сильно несбалансирован по датам выпуска, что можно увидеть на рисунке ниже. В дополнение к этому дисбалансу, выпускные годы начинаются с 1990 года, и они дают слишком узкий годовой интервал для нашей задачи. Ниже приведен график треков FMA с информацией о году выпуска.

Поскольку существует высокая несбалансированность по годам выпуска, мы пока не планируем использовать этот набор данных для будущих работ.

На этой неделе все. Спасибо, что прочитали, и надеемся увидеть вас на следующей неделе!

использованная литература

[1] Тейшейра, М., и Родргес, М. M0444 Проект 1: прогноз на год выпуска песен.
[2] https://musicbrainz.org/
[3] http: //millionsongdataset.com/blog/11-2-28-deriving-genre-dataset/
[4] Дефферрард, М., Бензи, К., Вандергейнст, П., и Брессон, X. (2016 г. ). Fma: набор данных для анализа музыки. Препринт arXiv arXiv: 1612.01840.

Прошлые блоги