В больших данных есть очень много данных, которые занимают место. Облачные данные — это виртуальный репозиторий, размер которого не ограничен физическими размерами. Это позволяет делать большие. Хранение данных важно для последующего использования по назначению. Облачная архитектура позволяет создавать архитектуры, отличные от традиционных хранилищ данных, которые основаны на физическом распределении и пространстве для хранения множества баз данных для нескольких приложений и позволяют извлекать записи на основе запросов. В облаке есть два термина для хранилища данных Data Pool и Data Lake. Они разные и ни один из них не использует физическое пространство.

Большие данные, озеро или бассейн?

Пул данных — это термин, который используется для нескольких баз данных, доступных через экземпляры для ряда пользователей, предлагающих конкретное углубленное пространство для больших данных и инструменты. Бассейн используется для обозначения небольшого и глубокого водоема. Это то, что представляет собой пул данных, большая база данных, несколько баз данных для глубокого анализа и запросов.

Озеро данных — это термин, который используется для хранения больших данных. Озеро данных — это виртуальный репозиторий для реляционных и нереляционных баз данных, который обеспечивает расширенную корреляцию и аналитику для решения современных проблем. Озеро – это большой водоем, глубокий и широкий. Озеро данных — это огромный объем данных, охватывающий различные типы баз данных и данных с несколькими пользователями. Для использования данных требуются инструменты для работы с большими данными, такие как машинное обучение и аналитика, средства обнаружения и прогнозирования.

Озеро данных

Преимущество: возможность использовать больше данных за меньшее время благодаря расширенному выбору атрибутов.

Соображение: для правильной работы требуются стандартизированные данные, но это не обязательно. Согласованность терминов и меток, необходимых для использования содержимого. Требуется общее управление между пользователями.

Примером может служить размещение всех данных об организации, продуктах, продажах, маркетинге и т. д. в одном виртуальном месте.

Пул данных

Преимущество: Централизованное хранилище для нескольких пользователей для обмена большим объемом информации между группами.

Внимание: требуется управление несколькими пользователями для обмена данными и использования одних и тех же данных. Пулы данных могут обрабатывать только реляционные базы данных и стандартизированные и рутинные данные.

Примером могут служить маркетинговые группы, которые обмениваются данными о продуктах между пользователями, чтобы понять спрос и предложение, поведение клиентов.

Советы

Чтобы найти решение для данных, просмотрите данные, которые необходимо сохранить, и используйте процесс для определения потребностей. Используя большие данные, решите, какая информация требуется для гипотезы, и используйте источник данных, содержащий необходимые атрибуты, для подтверждения или опровержения утверждения. Работа в обратном направлении, чтобы найти реализацию хранилища, отвечающую требованиям, — это рабочий метод, позволяющий получить наилучшее соответствие, чтобы иметь надежный и полезный репозиторий.

Выводы

Озеро данных и пул данных отличаются не только размером, но и использованием. Озеро данных большое и имеет много пользователей. Пул данных большой, но не такой, как озеро данных, и в нем много разных пользователей, просматривающих одни и те же данные. Озеро не является общими данными, но позволяет многим пользователям не делиться данными.