В настоящее время совершенно очевидно, что для достижения успеха вам необходимо включить данные в свою основную бизнес-стратегию, но получить максимальную отдачу от ваших данных не всегда так просто, как кажется. Вы читали об искусственном интеллекте, машинном обучении, глубоком обучении, больших данных, нейронных сетях и т. Д., Но что это значит для молодого стартапа?

Важно не позволять последним отраслевым тенденциям определять новую норму или, что еще хуже, позволять им отвлекать вас от того, что действительно важно, а именно от создания продукта или услуги, от которых пользователи действительно получают пользу и получают от них удовольствие. Когда дело доходит до данных, конечная цель никогда не должна быть чисто технической. Вместо этого мы должны задать себе следующий вопрос: какую ценность мы можем извлечь из наших данных и как мы можем эффективно доставить их вашим пользователям?

Именно в такой ситуации мы оказались около года назад. Мы знали, что хотим лучше использовать наши данные, рекомендуя новый контент нашим пользователям, но мысль о создании новой специальной группы с такими наборами навыков казалась, мягко говоря, пугающей. Каждый раз, когда мы хотели его изучить, мы находили оправдания, чтобы откладывать его: «сначала нам нужно выпустить больше функций», «у нас, вероятно, даже не хватит объема для совместной фильтрации» и т. Д.

Пока однажды в голове одного из разработчиков не загорелась лампочка - что, если вместо того, чтобы начинать с нуля, внедряя алгоритмы машинного обучения, обучая наши модели, пытаясь определить закономерности и взаимосвязи в наших данных, уточняя наши рекомендации и Итак, мы использовали уже существующие отношения в классической музыке?

Основная идея заключалась в следующем: несколько раз в неделю мы обрабатываем сотни тысяч альбомов. Для каждого альбома кто-то должен был постараться определить, какие произведения классической музыки следует в него включить. Это верно для любого альбома, будь то альбом солиста, оркестра или даже сборник. Если какой-либо элемент был сгруппирован вместе в альбоме, это означает, что за ним стояло курирование, осуществляемое человеком, и внутри этих элементов изначально существует музыковедческая связь.

Таким образом, матрица совместной встречаемости, обычно разрабатываемая как часть более широкой системы рекомендаций от элемента к элементу, уже существует, только в несколько другом формате, чем тот, который обычно используется в методах совместной фильтрации. Вместо того, чтобы представлять сходство между предпочтениями пользователей, мы исследуем сходство между редакционными вкусами. Почему бы не исследовать это дальше?

У нас уже был существующий конвейер обработки данных, который анализирует и проверяет сотни тысяч альбомов и дополняет его дополнительными метаданными классической музыки. Поскольку это высокомодульный процесс, мы могли очень легко добавить к нему дополнительные шаги, поэтому реализация проверки концепции для нашей идеи была относительно простой и автономной:

Мы начали с анализа художников. Для каждого исполнителя, присутствующего в альбоме, мы сопоставили его с артистами из всех других альбомов, уделяя пристальное внимание их соответствующим ролям. Это важное различие, поскольку исполнитель классической музыки может выступать в самых разных ролях - например, Даниэль Баренбойм, который может выступать на одних альбомах как солист на фортепиано, а на других - как ведущий дирижер. Расширяя эту модель, добавляя количество записей этого исполнителя в этой конкретной роли, мы можем настроить нашу собственную систему взвешивания для получения рейтинга и популярности.

Конечным результатом является исчерпывающий список, показывающий, как часто артист появляется с любым другим артистом в нашем репертуаре. И из-за различий в ролях понятие «появляется с» может иметь разные коннотации. От артистов, выступающих вместе, до дирижеров, исполняющих похожие произведения, и т. Д.

В конце концов, мы смогли за очень короткое время от идеи до полного развертывания этой функции для наших пользователей. Конечные результаты можно увидеть в нашем приложении по-разному, и все они основаны на этой простой идее:

Перенесемся на год вперед и сейчас мы на завершающей стадии доработки нашего собственного гибридного механизма рекомендаций, который включает в себя сочетание методов совместной фильтрации, а также индивидуальный подход на основе контента, использующий обширную маркировку классических музыкальные термины, которые мы тщательно разработали за последние годы. И, конечно же, в конце концов мы все-таки стали использовать библиотеки и инструменты, такие как TensorFlow, LightFM, AWS SageMaker и многие другие крутые технологии, но они никогда не были целью в первую очередь, и не сразу приступить к их реализации, мы смогли принести немедленную пользу нашим пользователям, давая себе время, чтобы сначала узнать, что они хотят.

Итак, действительно ли пользователям нравятся эти функции? Оказывается, да - около 24% пользователей, которые посещают страницу исполнителя, продолжают изучать похожих художников.

Как упоминалось в начале статьи, не позволяйте техническим сложностям мешать вам создавать крутые вещи. В простоте все еще есть ценность :)