В наши дни искусственный интеллект (ИИ) и машинное обучение (МО), кажется, окружают нас повсюду, отвечая на вопросы, проектируя компоненты и даже управляя автомобилями. Могут ли они также помочь с виртуализацией данных? Точно. Но сначала давайте убедимся, что когда мы говорим об AI и ML, мы говорим об одном и том же.

Для начала забудьте о Терминаторе и Матрице. Это примеры — и очень страшные — искусственного общего интеллекта. Этого не существует… пока. Сегодняшние AI и ML очень ограничены в своих возможностях и масштабах; отсюда и относительно узкое прозвище «искусственный интеллект». Возможно, «искусственный не очень интеллект» был бы более подходящим.

Еще одно соображение по поводу именования заключается в том, что в этой области используются AI, ML, глубокое обучение, когнитивные вычисления и полдюжины других терминов. Для экспертов они могут означать очень специфические и разные вещи, но в общем обсуждении они часто используются взаимозаменяемо, и здесь я делаю то же самое. Я, однако, провожу другое различие: автоматизация и аугментация.

Хотя современные инструменты искусственного интеллекта поддерживают конкретные приложения почти во всех мыслимых областях, их функции можно разделить на две широкие области: автоматизация, обеспечивающая более быстрые и дешевые решения и действия, часто за счет устранения человеческого участия в процессе, и дополнение, помогающее улучшить или расширить человеческое принятие решений и действий с идеями и предложениями. Хотя в некоторых приложениях они могут частично совпадать, вопрос о том, уменьшается или поддерживается роль человека, всегда указывает на ключевую направленность ИИ в каждом конкретном приложении.

ИИ в поддержке принятия решений

В области инструментов бизнес-аналитики (BI) и аналитики, ориентированных на пользователя, в последние несколько лет искусственный интеллект используется все чаще. Цель состояла в том, чтобы расширить понимание бизнесменами данных и результатов. Методы искусственного интеллекта, такие как регрессия, кластеризация, обнаружение закономерностей и аномалий, используются для предоставления информации и советов пользователям посредством генерации естественного языка (метод машинного обучения) для предоставления «историй» о результатах. Целью здесь является улучшение жизни и эффективности деловых людей.

Подготовка данных — еще одно важное направление, которое особенно обусловлено проблемами понимания больших данных из внешних источников и наблюдением, что кристально чистые озера данных часто быстро превращаются в мутные болота данных. Здесь часто вступает в игру «борьба с данными». Обработкой данных обычно занимаются специалисты по обработке и анализу данных, чтобы обнаружить структуры и значения данных из внешних источников, поступающих в эти озера данных. Часто говорят, что такая детективная работа занимает до 80% времени специалиста по данным.

Эта цифра также часто цитируется в отношении «археологии данных» — популярного названия древнего, но непопулярного времяпрепровождения в хранилищах данных. Это привлекало (и до сих пор привлекает) специализированные ИТ-ресурсы, которые веками копались в старых и часто непонятных операционных системах для поиска и интерпретации данных в технически сложных хранилищах. Это один из самых дорогостоящих, трудоемких и сложных аспектов создания системы извлечения, преобразования и загрузки (ETL) для хранилища данных.

ИИ, обученный с использованием существующих данных, может помочь как в спорах, так и в археологии, в основном для автоматизации и в меньшей степени для дополнений. Обучение с учителем требует обучающих данных, которые ранее были помечены людьми, тогда как обучение без учителя обнаруживает закономерности в непомеченных данных.

Оба подхода к обучению используются для определения структуры и содержания новых источников данных. Например, большой файл переменных, разделенных запятыми (CSV), содержит десятки немаркированных полей. ИИ может распознавать, что некоторые поля выглядят как почтовые индексы, уличные адреса, названия штатов и стран и т. д., просто на основе содержимого полей, что позволяет создавать объект адреса и очищать его содержимое на основе правил проверки. Точно так же сущности клиента и продукта могут быть идентифицированы и подготовлены для дальнейшего использования. Работа человека — будь то специалист по данным в спорах или IT-специалист в археологии — сводится к окончательной проверке и утверждению анализа ИИ. Такая автоматизация снижает затраты и ускоряет доставку.

Применение машинного обучения к виртуализации данных

Несмотря на отсутствие броского названия, разработчики и создатели систем виртуализации данных сталкиваются с той же проблемой понимания источников данных: каков контекст и значение данных, к которым бизнесмены получают доступ и обрабатывают их через запрос или API через уровень виртуализации данных. ? Задача виртуализации данных сложнее, чем для традиционных систем ETL. В производственной среде виртуализация данных доставляет данные немедленно, тогда как системы ETL доставляют их в фоновом режиме, в запланированных пакетах и ​​часто в автономном режиме. Планка для виртуализации данных выше: любые контекстуальные ошибки в понимании данных должны быть обнаружены и исправлены на ранней стадии и эффективно, чтобы они не повлияли на бизнес-пользователя в режиме реального времени.

Методы искусственного интеллекта, используемые в обработке данных и археологии, также могут применяться на этапе проектирования реализации виртуализации данных как для автоматизации процесса обнаружения контекста, так и для расширения знаний разработчиков среды виртуализации данных. Это может быть особенно полезно для выявления и предупреждения разработчиков о распространенных проблемах, таких как использование одного и того же имени переменной для разных данных в различных системах. Например, разные источники могут содержать частично перекрывающиеся наборы клиентов, а также несовместимые схемы идентификации клиентов. Машинное обучение может предоставить решения, основанные на методах сопоставления с образцом и выводах из источников данных. Обратите внимание, что это работа, которая обычно может выполняться и выполняется разработчиками виртуализации данных. ИИ снижает нагрузку и помогает новым разработчикам понять, на что обращать внимание.

В будущее

Применение ИИ для подготовки данных при обработке данных, археологии данных и особенно виртуализации данных все еще находится на ранней стадии. Это сложнее, чем применять ИИ в других, более общих областях применения, потому что наборы обучающих данных меньше и более ограничены. Однако эта ситуация изменится, поскольку новые методы искусственного интеллекта, такие как глубокое обучение с подкреплением и генеративные состязательные сети, уменьшат объем необходимых обучающих данных. В результате мы можем ожидать более широкого применения машинного обучения для виртуализации данных в ближайшем будущем.

Первоначально опубликовано на http://www.datavirtualizationblog.com 12 декабря 2019 г.