ИИ улучшает управление данными и упрощает рабочие нагрузки за кулисами

Томас Х. Дэвенпорт и Томас С. Редман из MIT Sloan Management Review

Управление данными имеет решающее значение для создания среды, в которой данные могут быть полезны для всей организации. Эффективное управление данными сводит к минимуму проблемы, возникающие из-за неверных данных, таких как дополнительное трение, неверные прогнозы и даже простая недоступность, в идеале до того, как они возникнут.

Однако управление данными — трудоемкая деятельность, непростая и не гламурная. Он включает в себя очистку, извлечение, интеграцию, каталогизацию, маркировку и организацию данных, а также определение и выполнение множества задач, связанных с данными, которые часто приводят к разочарованию как специалистов по данным, так и сотрудников, не имеющих слова «данные» в своих должностях.

Искусственный интеллект успешно применялся тысячами способов, но один из менее заметных и менее драматичных способов заключается в улучшении управления данными.

Существует пять общих областей управления данными, в которых мы видим, что ИИ играет важную роль:

  • Классификация. В широком смысле включает в себя получение, извлечение и структурирование данных из документов, фотографий, рукописного ввода и других носителей.
  • Каталогизация: помощь в поиске данных.
  • Качество: уменьшение количества ошибок в данных.
  • Безопасность. Защита данных от злоумышленников и обеспечение их использования в соответствии с применимыми законами, политиками и обычаями.
  • Интеграция данных: помощь в создании «основных списков» данных, в том числе путем объединения списков.

Ниже мы обсудим каждую из этих областей по очереди. Мы также описываем ландшафт поставщиков и то, как люди играют важную роль в управлении данными.

Одни только технологии не могут заменить хорошие процессы управления данными, такие как упреждающая атака на качество данных, обеспечение понимания всеми своих ролей и обязанностей, создание организационных структур, таких как цепочки поставок данных, и установление общих определений ключевых терминов. Но ИИ — это ценный ресурс, который может значительно повысить как производительность, так и ценность, которую компании получают от своих данных.

Вот пять областей, в которых ИИ может оказать наибольшее влияние на эффективное управление данными в организации.

1: Классификация

Классификация и извлечение данных — это широкая область, и она становится еще больше по мере оцифровки большего количества медиа и по мере того, как социальные сети все больше сосредотачиваются на изображениях и видео. В сегодняшних онлайн-настройках модерация контента для выявления неприемлемых публикаций была бы невозможна в масштабе без ИИ (хотя многие люди все еще работают в этой области). Мы включаем в эту область классификацию ( Является ли это разжиганием ненависти?), определение личности/сущности ( Человек это или бот, и если человек, то какой?) , сопоставление ( Является ли Джейн Доу в базе данных A тем же человеком, что и J.E. Doe в базе данных B?), извлечение данных ( Какие данные являются наиболее важными в этом судебном документе? ), и так далее.

В течение многих лет примитивные формы ИИ использовались для оптического распознавания символов (OCR) для извлечения важных данных из таких предметов, как банковские чеки или адресованные конверты. OCR стало настолько распространенным явлением, что мы больше не думаем о таких возможностях как об ИИ.

Новые системы искусственного интеллекта расширили OCR моделями глубокого обучения, которые теперь способны точно читать человеческий почерк.

Важные данные часто застревают в негибких форматах документов, таких как факсы, PDF-файлы и длинные текстовые документы, и для того, чтобы получить к ним доступ, проанализировать их или даже ответить на вопросы о них, их необходимо сначала извлечь. Например, в здравоохранении информация по-прежнему передается по факсу, и доступ к ней требует значительных человеческих усилий. Одна компания, занимающаяся электронными медицинскими картами, написала программу искусственного интеллекта для извлечения данных из факсов и ввода их непосредственно в систему EHR, что значительно экономит время. Программы ИИ также могут выявлять и извлекать из контрактов важные положения, что полезно, в частности, для юристов и аудиторов.

2: Каталогизация

На протяжении десятилетий компаниям не хватало точных указаний о том, где находятся ключевые данные в их системах и записях. К счастью, за последние несколько лет появилась каталогизация данных, которая стала важным средством отслеживания этого материала. Однако создание и поддержание таких каталогов в актуальном состоянии было трудоемким делом.

ИИ может автоматизировать поиск в различных хранилищах данных и автоматически создавать каталоги. Системы искусственного интеллекта могут захватывать любые метаданные, которые существуют в системной документации. ИИ также может описать происхождение данных — откуда они возникли, кто их создал, как они были изменены и где они находятся в настоящее время.

Но хотя создавать каталоги и информацию о происхождении данных с помощью ИИ проще, компаниям по-прежнему приходится бороться с беспорядком в существующих средах данных. Многие компании сопротивлялись созданию каталогов с использованием традиционных трудоемких методов, потому что не хотели раскрывать масштабы архитектурного беспорядка или потому, что хотели подождать, пока данные не будут лучше организованы и не станут более качественными, прежде чем прикладывать значительные усилия. . Однако простота создания и обновления каталогов с помощью ИИ означает, что компании могут сочетать более легкий доступ к информации с непрерывным процессом улучшения данных.

3: Качество

Инструменты качества данных в основном реализуют элементы управления, обычно использующие бизнес-правила, которые определяют домены разрешенных значений данных. Рассмотрим дату, состоящую из дня и месяца. Есть только 366 комбинаций допустимых значений. Таким образом, «Jebruary» — недопустимый месяц, «35» — недопустимый день, а «31 февраля» — недопустимая комбинация. Определение, кодирование и поддержание бизнес-правил в актуальном состоянии особенно обременительны, и именно в этой области мы видим большую пользу от искусственного интеллекта на основе машинного обучения.

Инструменты ИИ могут сканировать данные, чтобы идентифицировать недопустимые значения, при этом некоторые ошибочные значения исправляются автоматически, а другие назначаются какому-либо лицу или группе для исправления. Несколько поставщиков уже хвастаются тем, что их инструменты используют для этих целей машинное обучение.

ИИ также может выполнять другие функции, связанные с качеством данных, в том числе дополнять данные дополнительной информацией из других внутренних или внешних баз данных (после процесса сопоставления), делать прогнозы о том, как заполнить недостающие пробелы в данных, и удалять данные, которые стали дублироваться или редко используются. .

Важно отметить, что поставщики могли бы улучшить свои инструменты, если бы они поддерживали более активный подход к управлению качеством данных, который был бы направлен на предотвращение ошибок в данных, а не на их поиск и исправление.

С этой целью элементы управления должны применяться как можно ближе к точкам создания данных. Кроме того, инструменты должны сделать измерения качества данных тесно связанными с влиянием на бизнес и поддерживать статистический контроль процессов и улучшение качества.

4: Безопасность

Сохранение безопасности и конфиденциальности данных является критически важным вопросом для любой организации сегодня. Предотвращение взломов, взломов и отказов в обслуживании было в основном человеческой деятельностью с момента зарождения профессии по защите данных.

ИИ может помочь со многими из этих функций. Это полезно, например, в разведке угроз — наблюдение за внешним миром; синтез сигналов угроз, действующих лиц и языка; и предсказывать, кто что с кем может делать. Аналитика угроз на основе ИИ является ответом на многочисленные проблемы, с которыми сталкиваются специалисты по кибербезопасности, включая большое количество субъектов угроз, огромное количество кажущейся бессмысленной информации и нехватку квалифицированных специалистов.

Ведущие решения используют машинное обучение для автоматизации сбора данных о безопасности в нескольких внутренних и внешних системах, создания структурированных данных из неструктурированных форматов и оценки наиболее вероятных угроз. Системы искусственного интеллекта могут прогнозировать вероятные пути атак на основе предыдущих моделей атак и определять, исходят ли новые угрозы от ранее известных участников или от новых. Учитывая количество ложноположительных угроз кибербезопасности в нескольких несвязанных системах безопасности, сочетание правил принятия решений и моделей машинного обучения может определить приоритетность или сортировку угроз для расследования человеком.

Системы неконтролируемого обучения могут выявлять аномалии в ИТ-среде организации, такие как необычные модели доступа или редкие IP-адреса, обращающиеся к системам организации. Преимущество этих подходов в том, что им не нужно изучать прошлые подходы к кибербезопасности, которые всегда могут измениться.

ИИ также можно использовать для выявления внутренних угроз мошенничества или несоблюдения нормативных требований.

Эта возможность представляет особый интерес для строго регулируемых отраслей, таких как банковское дело и инвестиции. Программное обеспечение AI отслеживает цифровые коммуникации внутри организации и выявляет подозрительный язык или модели поведения. Конечно, для подтверждения злоупотреблений со стороны сотрудников или клиентов необходимо расследование с участием людей.

5: Интеграция данных

Возможно, одно из самых больших улучшений ИИ в управлении данными находится в области интеграции данных, также известной как освоение, которая включает в себя создание основной или «золотой» записи данных, которая является наилучшим источником элемента данных в организации. Компаниям может потребоваться интеграция данных по ряду причин: из-за того, что они со временем увеличили количество различных версий ключевых данных, из-за того, что хотят перепрофилировать транзакционные данные для аналитических целей, или из-за того, что они приобрели или объединились с компаниями, у которых есть собственные базы данных.

Объединение и освоение данных в крупной организации исторически было огромной задачей, требующей многолетних усилий.

В прошлом наиболее распространенным подходом к интеграции данных было управление мастер-данными, в котором использовался набор бизнес-правил для принятия решения, например, о том, следует ли объединять конкретный набор записей о клиентах или поставщиках, потому что они, по сути, были одной и той же записью. Однако создание и пересмотр обширного набора правил было настолько сложным и дорогостоящим делом, что многие проекты по интеграции данных были заброшены до завершения.

Теперь системы мастеринга на основе машинного обучения от таких компаний, как Tamr, используют методы вероятностного сопоставления, чтобы решить, следует ли объединять записи. Записи, которые имеют высокую вероятность того, что они являются одним и тем же объектом, например, 90 % или выше, автоматически объединяются. Относительно небольшое количество записей, которые не могут быть разрешены с помощью этого подхода, могут быть просмотрены экспертами в предметной области.

Среда поставщика для ИИ и данных

У компаний, стремящихся использовать ИИ для значительного улучшения своих ситуаций с управлением данными, есть два основных выбора среди поставщиков этих инструментов: они могут выбрать комплексное, дорогое и в лучшем случае прозрачное решение или собрать воедино набор одноцелевых систем ИИ.

Такие компании, как Palantir, которые изначально были ориентированы на оборонный и разведывательный рынок, но также расширились до коммерческих приложений, представляют первый вариант. Другие поставщики, которые приближаются к широте предложений Palantir по управлению данными, включают Collibra, Informatica, IBM и Talend. Другие сосредотачиваются на определенных типах данных, таких как Splunk для машинных данных.

Большинство поставщиков, предлагающих одноцелевые продукты, небольшие и малоизвестные. Некоторые крупные поставщики облачных услуг предлагают инструменты искусственного интеллекта для данных, но наличие нескольких вариантов выбора часто сбивает с толку потенциальных клиентов. Среда поставщиков этих инструментов быстро меняется: один поставщик сказал нам: «Каждый день в этой области появляется стартап, и большинство из них предлагают смехотворно узкий инструмент».

Крупные фирмы, предоставляющие профессиональные услуги, могут представлять третью возможность для компаний, которые хотят использовать ИИ для управления данными. Некоторые из них заключили партнерские отношения с небольшими предприятиями для интеграции своих возможностей и с более крупными для предоставления услуг по настройке и настройке. Одна крупная сервисная фирма изучает новые бизнес-модели с клиентами, основанные не на обычных договоренностях о времени и материалах, а на предоставлении чистых, интегрированных записей данных и определенной стоимости записи. В такой сложной среде этот уровень простоты, вероятно, понравится многим организациям.

Что ИИ не может сделать, и где люди важнее всего

Несмотря на то, что ИИ добивается успехов в улучшении управления данными, он все еще не может сделать много вещей.

В целом, хорошие данные по-прежнему требуют хороших менеджеров, которые заботятся о данных, рассматривают их как важный актив и создают систему управления, которая обращается с ними как с таковыми.

Конкретные задачи, для которых ИИ пока не очень помогает, включают следующее:

  • Создание стратегии данных и определение того, какие данные наиболее важны для бизнеса.
  • Создание культуры, основанной на данных.
  • Калибровка датчиков или оборудования.
  • Разработка политик и структур управления данными.
  • Определение ключевых деловых терминов или введение общего языка.
  • Установление того, использует ли организация правильные данные или неправильные данные для решения проблемы.
  • Рекомендация, где организация должна хранить или обрабатывать свои данные.
  • Наказание любого за нарушение кибербезопасности или мошенничество, связанное с данными.

Таким образом, всем организациям по-прежнему будут нужны люди для управления данными — как обычные сотрудники, которые создают данные и используют их, так и специалисты по управлению данными, чья работа заключается в их разработке, защите и курировании. Неизбежно, что высокоструктурированные и часто выполняемые задачи управления данными будут автоматизированы с помощью ИИ либо сейчас, либо в ближайшем будущем.

В целом это хорошая новость для управления данными, его пользователей и практиков, хотя рабочие места некоторых специалистов по управлению данными низкого уровня могут резко измениться или даже исчезнуть. В организациях, которые считают, что хорошие данные важны для их текущей и будущей деятельности, важно планировать, для каких задач они хотят использовать ИИ, какие действия по-прежнему будут принадлежать людям и как они будут работать вместе.

___

Томас Х. Дэвенпорт (@tdav) — почетный профессор информационных технологий и менеджмента в Бэбсон-колледже при президенте, приглашенный профессор Оксфордской бизнес-школы Саида и научный сотрудник Инициативы Массачусетского технологического института по цифровой экономике. Он является соавтором книги Работа с ИИ: реальные истории сотрудничества человека и машины (MIT Press, 2022). Томас С. Редман (@thedatadoc1) — президент консалтинговой компании Data Quality Solutions из Нью-Джерси и соавтор книги Настоящая работа науки о данных: превращение данных в информацию, лучшие решения и более сильные организации (Wiley, 2019).

Первоначально опубликовано наhttps://sloanreview.mit.edu/article/how-ai-is-improving-data-management/ и https://tribunecontentagency.com.