Как компьютер узнает, что Питер Джин Эрнандес и Бруно Марс - одно и то же лицо?

Или что Робин Фенти выступает под именем Рианна?

Или что Уильям Патрик Корган - это то же лицо, что и Билли Корган? Особенно, если отец Билли Коргана тоже оказался музыкантом по имени Уильям Корган (спойлер: он был).

Если вы специалист по викторинам в пабе или проводите весь день, работая с данными о правах на музыку, вы можете вспомнить эти ссылки. И, вероятно, почти любой компетентный человек мог бы сделать вывод, что Билли может быть сокращением от Уильяма. Но что, если вы - программа, обрабатывающая данные с помощью 300 различных Уильямов Корганов. Как можно с уверенностью определить, кто из фронтменов Smashing Pumpkins, кто его отец, а какие - просто похожие имена?

Эта проблема лежит в основе проблемы объединения регистраций песен из разных источников. издатели. А когда что-то идет не так, деньги пропадают.

Пропущенные матчи

Представьте, что вы - один из трех издателей, участвующих в написании песни Got To Be U Джона Дэвида Смита и Джейн Софи Доу. Каждый из трех издателей подает отдельную регистрацию.

  • Первая регистрация издателя предназначена для песни Джона Смита и Джейн Доу под названием Got To Be You.
  • Второй - для Got 2 Be U Джонни Смита и Софи Доу.
  • И ваша регистрация предназначена для участия в Got To Be U авторов JD Smith и JS Doe.

Чтобы составить полное представление о правах, нам сначала нужно знать, что все три издателя говорят об одной и той же песне. Если две из трех регистраций совпадают, а ваша - нет, велика вероятность, что причитающиеся вам гонорары не дойдут до вас.

Проблема в том, что сами по себе ни названия, ни авторы песен не совпадают. Если рассматривать только текстовое совпадение, маловероятно, что вы сможете с уверенностью сказать, что все три издателя говорят об одной и той же песне. По этой причине большинство систем сопоставления полагаются на схожесть названий и большие ручные усилия. Наша работа с издателями показывает, что это приводит к сбоям сопоставления более чем в 50% случаев.

Мощность графика

Благодаря исследовательскому сотрудничеству с Digital Catapult Блокур разработал новую технологию поиска по графам, чтобы решить именно эту задачу.

Во-первых, система анализирует имена и заголовки не изолированно, а как график взаимосвязей. Это дает нам больший контекст для каждой из сущностей в зависимости от их положения на графике: Джонни Смит, которого мы ищем, связан с песней Got 2 Be U и соавтором по имени Софи Доу. Это уже начало. Сложнее спутать нашего Джонни Смита с одним из многих других Джонни Смитов, у которых нет таких отношений.

Затем вместо поиска совпадения с помощью текстовой строки мы используем сам граф в качестве нашего запроса. Система пытается найти похожий график где-нибудь еще в данных.

А вот и самое интересное. Поскольку наш график взаимоотношений делает крайне маловероятным то, что мы можем спутать нашего Джонни Смита с кем-то еще, мы можем менее строго подходить к написанию его имени. Мы можем искать все имена, которые похожи на Джонни Смита, включая Джей Ди Смита и Джона Дэвида Смита, зная, что мы найдем ложное срабатывание только в том маловероятном случае, когда другой писатель с именем, похожим на Джонни Смита, также также связано с автором песен, похожим на Софи Доу, И названием песни, похожим на Got 2 Be U. Если вы все еще можете вспомнить школьную математику, вы знаете, что такое умножение вероятностей дает защита системы от ложных срабатываний чрезвычайно надежна.

Чем больше совпадений, тем выше доход

Результатом всего этого является то, что Блокур может генерировать больше кандидатов для совпадений и сопоставлять их с более высоким уровнем точности. Это означает меньше дублирующих работ, меньше пропущенных конфликтов и больше успешных совпадений между произведениями и записями - все это ведет к увеличению доходов музыкальных издателей.