Всем привет и добро пожаловать в наш первый пост в блоге о нашем проекте BBM406 - Moodify! В этом посте мы познакомим вас с нашим проектом, о том, что он собой представляет и как мы планируем его реализовать. Мы также собираемся поговорить о том, над чем мы планируем работать, до публикации на следующей неделе.

Вступление

В нашей повседневной жизни бывают моменты, когда мы чувствуем ярость, и мы просто хотим послушать несколько спокойных песен, чтобы избавиться от гнева и почувствовать себя лучше. Или иногда мы чувствуем себя счастливыми и полными энергии, и нам хочется послушать более захватывающие песни. Из-за этого, когда мы загружаем наше любимое музыкальное приложение, мы не хотим, чтобы оно воспроизводило нам песню, которая испортила бы нам настроение, не так ли? Вот здесь и появляется идея Moodify.

Идея проекта

В этом проекте мы собираемся разработать классификатор, который будет предсказывать доминирующее настроение данного музыкального образца. Мы планируем использовать модель глубокого обучения с необработанными звуковыми функциями в качестве входных данных (например, спектрограммы Мела) для классификации. Мы также можем использовать текстовые данные в виде текстов песен вместе с музыкальными данными для создания гибридной модели. Уже проведено довольно много исследований как для аудио, так и для текстовых данных, но, судя по тому, что мы видели, текстовые данные чаще встречаются в литературе. Мы думаем, что с необработанными аудиоданными более интересно работать, поскольку вместо работы с текстовыми данными, как мы обрабатываем их в проекте НЛП, мы получаем возможность работать с аудиоданными самой музыки.

Одна из причин выбора этой темы для нашего проекта заключается в том, что определение музыкального настроения можно использовать в самых разных областях. Например, его можно довольно хорошо использовать в рекомендательных системах, чтобы, как следует из названия, рекомендовать музыку людям в зависимости от их настроения. Благодаря этому его также можно использовать для улучшения рекомендательных систем таких приложений, как Spotify.

Реализация и сопутствующие работы

Когда мы проверяли работы, связанные с нашим проектом, мы увидели, что использовались как методы машинного обучения, так и методы глубокого обучения. Судя по тому, что мы видели, документы, в которых использовались методы машинного обучения [1, 2], в основном работали с текстами песен и, как таковые, использовали методы, которые хорошо подходят для классификации текста, такие как наивный байесовский классификатор или машины опорных векторов. По сравнению с этим, методы, основанные на глубоком обучении [3, 4], в основном использовали необработанные аудиоданные и нейронные сети, такие как сверточные нейронные сети и рекуррентные нейронные сети с архитектурой с долговременной памятью. Поскольку мы в основном хотим использовать необработанные аудиоданные, мы решили использовать один из подходов глубокого обучения. Мы еще не решили, какую модель использовать, поэтому нам нужно проверить литературу, чтобы иметь более четкое представление. Но на данный момент мы действительно думаем, что использование модели CNN и обработка звука как изображения было бы эффективным, учитывая, насколько хороши CNN для обнаружения закономерностей в проблемах классификации. Из того, что мы видели, использование спектрограмм Мела в качестве входных данных для CNN было бы хорошим началом [5].

Набор данных

Для нашего набора данных мы хотели бы использовать онтологию Google Research AudioSet [6], которая включает 16955 музыкальных видеоклипов с 7 различными настроениями (счастливым, смешным, грустным, нежным, захватывающим, злым, страшным). Образцы аудио также можно найти на YouTube. Хотя набор данных огромен и имеет нужные нам ярлыки настроения, он не поставляется с аудиофайлами, а вместо этого поставляется с уже извлеченными функциями. И мы не знаем, будут ли эти функции совместимы с моделью, которую мы собираемся использовать. А получение всех данных с YouTube вручную кажется сложной задачей. Поэтому нам все еще нужно решить, какой набор данных использовать.

Планы на следующую неделю

На следующей неделе мы планируем поработать над этими темами:

  • Сделайте более подробный обзор литературы, чтобы узнать, какую модель использовать.
  • После выбора модели определитесь, какие функции вам подойдут.
  • Решите, какой набор данных использовать

На этой неделе все. Следите за обновлениями в нашем следующем посте и желаю удачной недели!

Эмир Каан Кирмаджи, Тунец Каракан, Джихад Озджан

использованная литература

[1] Т. Данг и К. Шираи. (2009). «Подходы машинного обучения к классификации песен по настроению в поисковой системе »

[2] Рашка, Себастьян. (2016). «MusicMood: прогнозирование настроения музыки по текстам песен с помощью машинного обучения.

[3] М. Малик и др. (2017). «Сложенные сверточные и рекуррентные нейронные сети для распознавания музыкальных эмоций.

[4] Р. Delbouys et al. (2018). «Определение музыкального настроения на основе звука и текста с помощью глубокой нейронной сети.

[5] Ознакомьтесь с Валерио Велардо - Звук ИИ для получения дополнительной информации, связанной с AI Audio.

[6] Доступно здесь: https://research.google.com/audioset/ontology/music_mood_1.html