Все мы слышали расхожие выражения типа «вещь А — это новая вещь Б». Часто произносимое в причудливом тоне, это выражение предназначено для обозначения того, что «вещь Б» заменяется в использовании и популярности «вещью А». Возникнув в мире дизайна одежды, это выражение предназначено для обозначения того, что один стиль моды сменяется другим с точки зрения популярности. Один очень известный пример — «оранжевый — это новый черный», как упоминается в метко названном сериале Netflix о руководителе, который вынужден обменять свои черные рабочие костюмы на оранжевые комбинезоны после того, как провел время в тюрьме минимального режима. Существует также выражение «40 — это новые 30», которое используется, когда кто-то, обычно вступающий в кризис среднего возраста, пытается принять свою новую возрастную группу, подразумевая, что 40 лет теперь так же круты, как 30 лет раньше. Очень причудливым образом фраза «вещь А — это новая вещь Б» означает смену караула, новый способ ведения дел или новый способ восприятия вещей. В мире технологий управления данными можно также сказать, что виртуализация данных (DV) — это новая база данных (БД).

Теперь, прежде чем вы обвините меня во временном безумии, знайте: я не говорю буквально, что технология баз данных будет заменена технологией виртуализации данных. Базы данных служат важной цели и, безусловно, никогда не будут заменены ни в этой жизни, ни, возможно, в следующей. Однако в мире, в котором мы собираем данные с такой скоростью, разнообразием и объемом, база данных теперь является лишь одним из многих вариантов хранения, доступных для критически важных для бизнеса данных. Реляционная база данных является идеальным хранилищем, подходящим для многих категорий сценариев использования клиентов, но диапазон вариантов использования, управляемых данными, доступных сегодня, превышает возможности типичной реляционной базы данных. Сегодня в большинстве крупных организаций варианты хранения данных включают традиционные базы данных, хранилища данных NoSQL, кластеры Hadoop, электронные таблицы, файлы с разделителями, облачные API и постоянно растущий список пригодных для использования источников критически важных бизнес-данных.

Современный типичный ландшафт бизнес-данных

Анализируя траекторию развития технологий управления данными за последние несколько десятилетий, мы можем увидеть эволюцию, основанную на меняющихся потребностях бизнеса. В 1980-х мы наблюдали огромный рост использования реляционных баз данных как средства хранения и управления основными данными, транзакционными данными и отношениями между этими различными сущностями. По мере того как количество, объем и размер этих баз данных росли, мы увидели, что данные реплицируются и централизуются в больших хранилищах данных, начиная с 1990-х годов. Это служило своей цели, пока разнообразие и сложность данных не начали расти от структурированных данных к полуструктурированным и неструктурированным данным. От электронных таблиц до XML-документов, от документов JSON до CSV-файлов и потоковой передачи данных с мобильных устройств и устройств IoT — увеличение скорости, объема и разнообразия данных потребовало развертывания новых механизмов хранения данных. В дополнение к традиционным базам данных и хранилищам данных современный типичный ландшафт данных обычно включает данные, хранящиеся в базах данных NoSQL, графовых базах данных, облачных API, кластерах Hadoop и озерах данных, находящихся как в локальных центрах обработки данных, так и в нескольких облачных средах. Функциональность каждого критически важного бизнес-приложения обычно требует хранения и доступа к данным в репозиториях, которые лучше всего подходят для этого конкретного приложения. В результате в локальных центрах обработки данных и в нескольких облачных средах создаются различные хранилища данных. Такова природа типичного ландшафта бизнес-данных сегодня, и перед лицами, принимающими бизнес-решения в организациях, управляемых данными, становится серьезной проблемой анализ их широты активов данных, чтобы получить представление, необходимое для принятия своевременных и обоснованных бизнес-решений.

Представьте себе розничный бизнес с данными о клиентах в базе данных Oracle, транзакциями продаж в базе данных SQL Server, историческими данными о продажах в хранилище данных Teradata, данными веб-трафика, хранящимися в кластере Hadoop, данными CRM, хранящимися в Salesforce, и демографическими данными потребителей, доступными через облачный API. В дополнение к этим источникам данных, в результате недавних приобретений бизнеса, у них также есть дополнительные данные о продажах в AWS Redshift и Azure SQL Data Warehouse. Сложность этой гибридной среды данных, в которой данные разбросаны по многочисленным локальным и облачным источникам данных, является серьезным препятствием для бизнес-лидеров, пытающихся получить важную информацию для принятия важных и своевременных решений. Представьте себе, что финансовому директору этой компании необходимо составить финансовые прогнозы на предстоящий год. Исходные данные для разработки этого прогноза включают исторические данные о продажах в масштабе всего предприятия, покупательские намерения клиентов, основанные на прошлых покупках, данные о пользовательском веб-трафике и демографические данные потребителей. Для ИТ-отдела, которому поручено предоставить данные, необходимые для разработки этого понимания, использование традиционного подхода ETL потребует репликации данных из 8 источников данных в 5 совершенно разных средах в единую среду для дальнейшего анализа. Сложность этих усилий, связанные с ними финансовые и человеческие ресурсы, продолжительность времени, необходимого для разработки заданий ETL, и трудоемкое выполнение процессов, необходимых для физического переноса данных из этих разрозненных сред в единый репозиторий. представляют собой значительные препятствия для своевременного принятия важных бизнес-решений.

Виртуализация данных: новая парадигма

В этих все более сложных средах данных стандартной базы данных просто недостаточно, чтобы предоставить бизнес-пользователям информацию, необходимую им для разработки важных аналитических данных о бизнес-операциях. Мы находимся в середине новой эры инноваций, основанных на данных, когда виртуализация данных стала важной технологической возможностью, позволяющей бизнес-пользователям получать своевременный доступ к информации, необходимой для принятия важных бизнес-решений. Виртуализация данных обеспечивает высокопроизводительное потребление данных в режиме реального времени, которые распределяются между различными источниками данных в нескольких средах через логическую централизованную точку доступа без необходимости ресурсоемких и длительных процессов репликации данных. В вышеупомянутом гипотетическом примере сложной среды данных розничного бизнеса виртуализация данных позволит создавать логические объекты данных, представляющие данные из разрозненных источников в логической семантической модели. Затем эту логическую семантическую модель можно использовать непосредственно из бизнес-аналитики, аналитики и других приложений, использующих данные, без необходимости репликации разрозненных источников данных в один. Это значительно сокращает время и усилия, необходимые для предоставления лицам, принимающим бизнес-решения, критически важной информации для принятия важных бизнес-решений в организациях, управляемых данными.

DV — это новая БД
Данные лежат в основе большинства инноваций, происходящих сегодня в отрасли. Мощь прогнозной аналитики, машинного обучения и технологий искусственного интеллекта, которые лежат в основе многих современных инноваций, зависит от огромных объемов данных, распределенных в очень фрагментированных и очень сложных локальных и облачных средах данных. Самой по себе традиционной реляционной базы данных недостаточно для удовлетворения всех потребностей современных организаций, работающих с данными. Виртуализация данных — это ключевая технология, которая значительно расширяет возможности бизнес-пользователей по анализу распределенных ресурсов данных и своевременному и эффективному анализу критических данных. Можно сказать, что революционизируя возможности доступа к данным, необходимые для обеспечения работы современных организаций, работающих с данными, виртуализация данных — это новая база данных. Чтобы выразить это более подходящим образом для печати на футболке или наклейке на бампер, «DV — это новая DB».

Первоначально опубликовано на https://www.datavirtualizationblog.com 3 сентября 2020 г.