Как полицейское управление 21 века выслеживает преступников? Конечно, используя науку о данных! Чтобы направить свои расследования, полиция собирает информацию из разрозненных источников данных о преступниках, чтобы получить целостное представление об их жизни и взаимодействиях с другими людьми. Офицеры часто собирают налоговую историю из IRS, записи звонков от операторов сотовой связи и арестовывают записи из других полицейских управлений в отношении тысяч подозреваемых в ходе расследования. В большинстве случаев очень сложно согласовать информацию из этих разрозненных источников из-за несоответствий в записях.

Боб Джонстон из Verizon тоже Роберт Джонстон из полиции Нью-Йорка? Является ли человек, проживающий по адресу 433 Main St., таким же, как тот, кто живет по адресу 433 Maine Street? Дублирование записей - нетривиальная проблема при анализе больших объемов данных. Человеку легко распознать сходство между Main St. и «Мэйн-стрит», но человек не может добыть миллионы или миллиарды записей.

На приведенном выше рисунке представлена ​​графическая база данных, представляющая финансовые взаимодействия отдельных лиц. Небольшая часть - преступники. Эта база данных содержит тысячи повторяющихся записей в результате опечаток и неуникальных записей. Невозможно принимать решения, используя такие запутанные данные.

На практике мы обучаем компьютер распознавать уникальные сущности из дублированных записей в хранилище данных.

Разрешение сущностей с помощью автоматизированной кластеризации

Прежде чем мы сможем объединить или «канонизировать» повторяющиеся записи, мы должны пометить дубликаты. Мы делаем это, используя комбинацию алгоритмов оценки сходства, логистической регрессии и кластеризации.

Этапы рабочего процесса разрешения сущностей.

Оценка подобия может быть выполнена разными способами, но в случае строковых полей (например, Боб Джонстон против Боб Джонсон) мы используем вариант простой процедуры, называемой расстояние Хэмминга. Расстояние Хэмминга определяется как количество изменений, необходимых для создания альтернативной записи. Преобразование Боб Джонсон в Боб Джонстон выполняется добавлением буквы t, заменой строчной j на прописную и добавлением е. Это три изменения, так что расстояние Хэмминга равно трем. Точно так же расстояние Хэмминга между 433 Main St. а 433 Maine Street - пять.

Теперь, когда у нас есть расстояние между строками по полю, нам нужно решить, как взвешивать поля для общего сравнения записей. В примере Боба Джонсона мы должны определить относительную важность поля имени и поля адреса. Это часть машинного обучения. Мы используем алгоритм, называемый логистическая регрессия, чтобы установить веса каждого поля, показывая примеры алгоритма записей, которые являются дубликатами, и записей, которые не дублируются. Если алгоритм узнает, что адреса более важны для поиска дубликатов, он взвешивает расстояния адресов больше, чем расстояния между именами и именами.

Логистическая регрессия - это минимизация ошибки между реальными данными и прогнозами, сделанными с помощью логит-уравнения.

Понял? Теперь, когда у нас есть абсолютные оценки между записями, нам нужно сгруппировать записи в кластеры, чтобы пометить дубликаты как принадлежащие друг другу, а уникальные записи как принадлежащие только им самим (кластер из одного). Теоретики информации могут поставить эту проблему как максимизацию энтропии информационного пространства. Остальные из нас почесали бы голову при этом утверждении и назвали бы его сортировкой записей в уникальные группы.

Кластерные данные, готовые к канонизации.

Нажмите сюда, чтобы прочесть продолжение"