Данные везде

«Постоянное увеличение скорости обработки данных и пропускной способности, непрерывное изобретение новых инструментов для создания, обмена и потребления данных, а также постоянное добавление новых создателей и потребителей данных по всему миру обеспечивают неуклонный рост данных. Данные порождают новые данные в постоянном благотворном цикле».
Отчет Forbes 2020

Современная экосистема данных включает целую сеть взаимосвязанных, независимых и постоянно развивающихся объектов.

Он включает в себя данные, которые необходимо интегрировать из разрозненных источников, различные типы анализа и навыки для получения информации. Активные заинтересованные стороны для совместной работы и действий на основе полученных идей, а также инструментов, приложений и инфраструктуры для хранения, обработки и распространения данных по мере необходимости.

Начнем с источников данных.

Данные доступны в различных структурированных и неструктурированных наборах данных, содержащихся в тексте, изображениях, видео, потоках посещений, разговорах пользователей, платформах социальных сетей, Интернете вещей или устройствах IoT. , события в реальном времени, которые передают потоковые данные, устаревшие базы данных и данные, полученные от профессиональных поставщиков данных и агентств. Источники еще никогда не были такими разнообразными и динамичными.

Когда вы работаете с таким количеством различных источников данных, вам нужно предпринять несколько шагов.

  • Первый шаг — извлечь копию данных из первоисточников в репозиторий данных.

На данном этапе вы рассматриваете только получение данных, которые вам нужны, работая с форматами данных, источниками и интерфейсами, через которые эти данные могут быть получены. Надежность, безопасность и целостность получаемых данных — вот некоторые из проблем, с которыми вам предстоит работать на этом этапе. Когда-то необработанные данные стали обычным явлением.

  • его необходимо организовать, очистить и оптимизировать для доступа конечных пользователей. Данные также должны соответствовать требованиям и стандартам, действующим в организации.

Например, соблюдение руководящих принципов, регулирующих хранение и использование персональных данных, таких как здоровье, биометрические данные или данные о домохозяйстве в случае устройств IoT. Еще одним примером является соблюдение таблиц основных данных внутри организации для обеспечения стандартизации основных данных во всех приложениях и системах организации. Ключевые проблемы на этом этапе могут включать управление данными и работу с репозиториями данных, которые обеспечивают высокую доступность, гибкость, доступность и безопасность.

  • Наконец, у нас есть заинтересованные стороны бизнеса: приложения, программисты, аналитики и специалисты по анализу данных, которые извлекают эти данные из корпоративного репозитория данных.

Ключевые проблемы на этом этапе могут включать интерфейсы, API и приложения, которые могут передавать эти данные конечным пользователям в соответствии с их конкретными потребностями. Например, аналитикам данных могут понадобиться необработанные данные для работы. Заинтересованным сторонам бизнеса могут понадобиться отчеты и информационные панели. Приложениям могут потребоваться специальные API для извлечения этих данных.

Важно отметить влияние некоторых новых и появляющихся технологий, формирующих сегодняшнюю экосистему данных и ее возможности,
например, облачные вычисления, машинное обучение, и большие данные, и это лишь некоторые из них.

Благодаря облачным технологиям каждое предприятие сегодня имеет доступ к неограниченному хранилищу, высокопроизводительным вычислениям, технологиям с открытым исходным кодом, технологиям машинного обучения, новейшим инструментам и библиотекам. Специалисты по данным создают прогностические модели, обучая алгоритмы машинного обучения на прошлых данных, а также на больших данных. Сегодня мы имеем дело с наборами данных, которые настолько велики и разнообразны, что традиционные инструменты и методы анализа уже не подходят, что открывает путь для новых инструментов и методов, а также новых знаний и идей.