Да, наука о данных - это увлекательно. Да, взлом - это весело, но какие варианты использования ценны и имеют влияние о вашей компании?

Как вы, безусловно, испытали, найти правильный вариант использования для вашей компании - непростая задача. Каждый день вы получаете сотни писем от внутренних менеджеров, в которых утверждается, что их данные очень ценны. Им нужна ваша помощь. Однако после тщательного анализа ваша команда специалистов по анализу данных позже сообщит вам, что набор данных слишком мал, не имеет целей и даже более раздражающих и бесполезных деталей.

В этой нетехнической серии я расскажу о распространенном, но очень ценном сценарии использования науки о данных и отвечу на следующие вопросы:

  • О чем они конкретно?
  • Применимы ли они к вашему бизнесу?
  • Как выглядит конечный продукт?
  • Чего вам следует ожидать от своей команды специалистов по анализу данных?

В этой первой части я рассмотрю Связывание записей и то, как это снизит ваши административные расходы.

Время историй

Еще одно солнечное утро понедельника в головном офисе. София приходит в офис. Она просматривает бесконечный список новых непрочитанных писем. Она открывает первую.

Ее менеджер Джеймс сообщает, что прошедшая неделя была довольно успешной. Недавно была зарегистрирована большая партия новых клиентов, но, хотя количество зарегистрированных зарегистрированных форм, похоже, совпадает, некоторые данные о клиентах, похоже, отсутствуют.

София просматривает различные базы данных. Вот она снова это видит! С той же проблемой, с которой она сталкивается снова и снова, ошибки транскрипции.

Ей придется еще раз перераспределить административный персонал, чтобы проверить запись за записью базы данных и вручную исправить данные.

«Этим клиентам придется подождать», - говорит она. «Какая трата времени и ресурсов», - думает она.

Да, это Софья, это точно!

Неважно, к какой отрасли вы принадлежите. Каждый день регистрируется бесчисленное количество форм. Это могут быть контейнеры из Гонконга, прибывающие на корабле в Роттердам с ошибочно введенным таможенным идентификатором. А как насчет неверных идентификаторов клиента в форме ипотечного кредита? Список продолжается ...

Эта проблема обычно называется привязкой записи.

Что такое связь с записями?

«Связывание записей - это извлечение информации об одном объекте, например клиент, товар и т. д. из разных наборов данных, которые могут иметь общие идентификаторы, а могут и не иметь. Эти идентификаторы могут быть ключами, идентификационными номерами и т. Д. »

Похоже, что-то, что никогда не должно пойти не так, как надо, не так ли?

К сожалению нет.

При оцифровке форм пришлось транскриптировать многие исторические аналоговые данные. Более того, люди всегда будут ошибаться. Даже лучшие секретарши ошибочно набирают имя, идентификатор клиента и т. Д. Чем крупнее компания, тем больше случаев недосмотра.

Автоматизация этой очистки данных означает меньшие административные расходы, необходимые для наблюдения за процессами.

Как выглядит конечный продукт?

Упрощенный рабочий процесс показан на рисунке ниже.

Клиент был зарегистрирован в разных учреждениях, некоторые из которых находятся за пределами вашей компании и часто могут быть источником неверных данных. Затем данные загружаются в вашу центральную базу данных. Регулярно планируется очистка наборов данных. Каждая новая непроверенная запись в базах данных проверяется вашей (разработанной) моделью машинного обучения черного ящика, которая связывает записи, доставляет окончательную форму и обновляет центральную базу данных очищенными записями.

Чего ожидать от ваших специалистов по данным?

Самый распространенный подход часто обозначается как Нечеткое соответствие. Ваша команда анализирует распространенные ошибки в базе данных и использует алгоритм для оценки сходства между записями с использованием мер расстояния.

Базовым примером таких мер расстояния является расстояние Левенштейна. Эта мера оценивает сходство между строками, то есть словами / текстами / последовательностями символов, на основе количества удалений, вставок или замен, необходимых для сопоставления двух строк.

Вы услышите такие слова, как косинусное сходство, косинусное сходство TF-IDF, Doc2Vec, вариационные автокодировщики, триплетные сети, сиамские сети и т. Д. Необходимость передовых методов зависит от качества данных. В конце концов, нет никаких серебряных пуль ...

Заключение

Связь с записями - обычное дело в отрасли. Административные расходы можно снизить, используя рабочий процесс санитарной обработки. В центре этого потока находится модель машинного обучения «черный ящик», которая сравнивает вновь добавленные записи в вашу базу данных и сопоставляет их на основе показателей сходства.

использованная литература

  1. Кристен П., Расширенные методы связывания записей: масштабируемость, классификация и конфиденциальность
  2. AT&T Bell Laboratories, Проверка подписи с использованием« сиамской
    нейронной сети с временной задержкой»
  3. Наварро, Гонсало (2001). Экскурсия по приблизительному сопоставлению строк
  4. Белл Р.М., Кизи Дж., Ричардс Т. Стремление к слиянию: соединение записей статистики естественного движения населения и заявлений по программе Medicaid.