Данные являются важным компонентом нашей повседневной жизни. В инженерии данных необходимо анализировать различные распределения данных, чтобы получить представление, разработать стратегии и принять соответствующие бизнес-решения. Данные могут поступать из внутренних систем или из внешних источников, таких как данные о погоде или демографические данные, созданные сторонними поставщиками информационных услуг для потребителей. Данные жизненно важны для любой организации, и с ними необходимо правильно обращаться, хранить и анализировать. Крайне важно понимать тип имеющихся данных при работе с ними, чтобы принимать наилучшие решения по обработке для достижения эффективных результатов.

Вы столкнетесь со многими типами данных, работая с данными, чтобы получить представление. Некоторые данные структурированы, но большая часть данных неструктурирована. Рассмотрите видеоданные, текстовые данные, электронную почту, фотографии и потоки в социальных сетях, чтобы получить представление о том, что происходит.

Данные подразделяются на три различные группы с точки зрения структуры:

  1. Структурированные данные
  2. Полуструктурированные данные
  3. Неструктурированные (неструктурированные) данные

Структурированные данные

Когда данные представлены в стандартизированном формате, имеют четко определенную структуру, следуют последовательному порядку и легко доступны людям и программам, они называются структурированными данными. Поскольку структурированные данные имеют структуру, соответствующую схеме, их можно хранить в реляционной базе данных.

Структурированные данные в настоящее время являются наиболее обрабатываемыми при разработке и наиболее простым подходом к управлению данными. С другой стороны, структурированные данные составляют примерно от 5 до 10% всех данных информатики. По сравнению с другими типами данных, которые мы опишем позже, этот тип данных достаточно прост для анализа.

Полуструктурированные данные

Это тип структурированных данных, которые не имеют формальной структуры (в отличие от структурированных данных), но имеют теги или другие маркеры для разделения семантических частей и обеспечения иерархии записей и полей в данных. Полуструктурированные документы включают XML, JSON и другие форматы.

Неструктурированные данные (неструктурированные данные)

Неструктурированные данные — это данные, которые не соответствуют модели данных и не имеют четко определенной структуры. Таким образом, в эту категорию попадают все остальные данные, не имеющие вообще никакой структуры. По данным IDC, на него приходится 90% всех данных. Поскольку большая часть неструктурированных данных игнорируется, большинство компаний вкладывают значительные средства в аналитику неструктурированных данных.

Важно помнить, что большинство данных в организации полуструктурированы или неструктурированы. В результате данные из многочисленных источников должны быть интегрированы для удовлетворения коммерческих или организационных потребностей.

Интеграция данных из разных источников

Для целей анализа необходимо объединить данные из нескольких источников. Для выполнения некоторых действий по обработке данных. Структурированные, полуструктурированные и неструктурированные данные из нескольких источников можно объединять и консолидировать. Для этой цели существует несколько типов систем, которые подробно описаны ниже.

Существует множество методов интеграции источников данных в зависимости от источников данных. Мы шаг за шагом рассмотрим, как интегрировать различные источники данных.

Операционные системы — система онлайн-обработки транзакций (OLTP)

Исходным источником данных обычно являются оперативные данные. OLTP (операционные) данные используются для контроля и запуска основных бизнес-процессов. Эта информация дает представление о текущих потребностях компании.

Системы OLTP имеют несколько характеристик:
1. Инициированные конечным пользователем вставки и обновления в эту систему всегда выполняются быстро и безболезненно.
2. Запросы являются последовательными и простыми, что дает небольшое количество результатов.< br /> 3. В большинстве случаев скорость обработки очень высока.
4. Если архивируются прошлые данные, места может быть совсем немного.
5. При большом количестве таблиц база данных в значительной степени гомогенизированы/нормализованы.
6. Потеря данных может привести к значительным денежным потерям или юридическим последствиям, поэтому резервное копирование и восстановление должны выполняться неукоснительно.

Системы OLAP (онлайн-хранилище данных системы аналитической обработки)

Данные OLAP, в отличие от оперативных данных, поступают из различных систем OLTP. OLAP помогает в планировании, решении проблем и поддержке принятия решений для организации.

Некоторые особенности систем OLAP:

  1. Многомерные представления различных видов деловой активности
  2. Периодические длительные пакетные задания обновляют данные
  3. Система OLAP часто включает сложные запросы, включающие агрегации.
  4. В зависимости от объема задействованных данных пакетное обновление данных и сложные запросы могут занять много часов. Хотя скорость запросов можно улучшить, создав индексы.
  5. Больше из-за наличия структур агрегации и исторических данных. Для них требуется больше индексов, чем для систем OLTP.
  6. Обычно денормализован с меньшим количеством таблиц; использование схем «звезда» или «снежинка».

Интеграция, хранение и анализ неструктурированных данных

Вот некоторые из подходов к интеграции, хранению и анализу неструктурированных данных:

  1. Слабая связь
  2. Тесная связь

Слабая связь:

Виртуальная опосредованная схема — это еще одно название слабой связи. Слабая связь обеспечивает интерфейс, который принимает входные данные запроса пользователя, преобразует запрос в формат, понятный исходной базе данных, и отправляет запрос прямо в исходную базу данных для получения ответа. Многие адаптеры/оболочки подключаются обратно к исходной системе, чтобы передать данные во внешний интерфейс в опосредованной схеме.

Сильная связь:

Тесная связь: этот подход можно реализовать с помощью хранилища данных. В этом случае данные переносятся из разрозненных источников в одно место с помощью ETL (извлечение, загрузка и преобразование). Единое физическое местоположение обеспечивает единый интерфейс для применения данных. ETL помогает сопоставлять данные из источников, чтобы обеспечить семантически однородное хранилище данных. Этот подход называется тесной связью, так как во время запроса требуется тесная связь с физическими репозиториями.

В случае хранилища данных неструктурированные данные преобразуются в структурированные данные. Однако в системе распространения файлов Hadoop (HDFS) любые данные могут храниться без какого-либо преобразования. Таким образом, подготовка данных может быть до или после загрузки данных в распределенную файловую систему. На рисунке ниже показана тесная связь с HDFS.

Как анализировать неструктурированные данные:

В соответствии с вашей бизнес-стратегией вам необходимо определить, какой анализ вы будете выполнять. Некоторые из этих анализов:

  1. Описательный анализ
  2. Предиктивный анализ
  3. Предписывающий анализ

После определения анализа, который необходимо выполнить, затем определите инструменты анализа, которые будут более продуктивными для использования. Если у вас есть технические эксперты, они могут анализировать без пользовательского интерфейса, но если они не очень опытные или технические, они могут начать использовать инструмент графического пользовательского интерфейса для интеллектуального анализа данных.

Подводя итог, можно сказать, что данные могут поступать из различных источников и должны быть проанализированы для получения информации и принятия решений в организации. Есть еще понятие БОЛЬШИХ ДАННЫХ. В больших данных большой объем данных в любой форме анализируется в режиме реального времени, чтобы принести пользу организации. Большие данные огромны по размеру и представлены в различных форматах (структурированных и неструктурированных) с соотношением неструктурированных и структурированных данных 9:1. Большие данные также динамичны с точки зрения скорости. Это критично для предприятий и организаций. Большие данные полезны для маркетинга в социальных сетях, мониторинга социальных событий, научных исследований и других целей.

Ознакомьтесь с моим эссе по адресу https://medium.com/@engrmountain/understanding-the-effects-of-differen-data-distributions-in-training-machine-learning-model-9d101a32a7dd, чтобы узнать больше о различных распределениях данных. и их влияние на проекты машинного обучения.
Чтобы узнать больше статей о разработке данных и искусственном интеллекте, подпишитесь на меня, давайте учиться вместе. Вы также можете стать подписчиком.