Самостоятельный прием данных: ключ к созданию единого, масштабируемого облачного озера данных

Предприятия все чаще используют облачные озера данных для выполнения крупномасштабных аналитических рабочих нагрузок и использования аналитических данных на основе данных для принятия более эффективных решений. Облачные озера данных обеспечивают непревзойденную эластичность и масштабируемость, позволяя компаниям сократить расходы и сократить время выхода на рынок.

Первым шагом в создании озера данных на облачной платформе является прием данных, однако ему часто придается низкий приоритет, когда предприятие совершенствует свои технологии. Только когда количество потоков данных из нескольких источников начинает расти в геометрической прогрессии, ИТ-команды нажимают кнопку паники, поскольку понимают, что не могут поддерживать и управлять вводом.

Самостоятельный прием данных может помочь предприятиям преодолеть эти проблемы и раскрыть весь потенциал своих озер данных в облаке. Вот некоторые из преимуществ.

Полная интеграция новых каналов

В современном гиперцифровом мире предприятия собирают и хранят данные из сотен источников, а это означает, что в озеро данных ежедневно, еженедельно и ежемесячно необходимо вводить тысячи потоков данных в режиме реального времени и в пакетном режиме. С точки зрения принятия решений жизненно важно отправить эти потоки в озеро как можно раньше, а затем сопоставить и подготовить их для анализа. Однако по мере увеличения количества исходных систем ИТ-командам становится все труднее достаточно быстро обрабатывать каналы.

Именно здесь самостоятельный прием данных может повысить ценность. Он позволяет нетехническим специалистам добавлять источники данных и выбирать место назначения, в которое данные могут быть реплицированы, что позволяет быстрее получать ценную информацию. Более того, поскольку внедрение и тестирование каждого нового канала обычно занимает от четырех до шести недель, платформы самообслуживания могут помочь сэкономить миллионы долларов ИТ-бюджета за счет снижения затрат и усилий, связанных с этим процессом.

Мощное преобразование данных

Традиционно хранение данных в озере данных предполагает прием данных как есть. Однако на данном этапе современные решения для самообслуживания открыли совершенно новый мир возможностей. Исчезла необходимость в пакетной обработке; проглатывание теперь может происходить в режиме реального времени. Кроме того, процессы преобразования данных, такие как обогащение и нормализация, могут выполняться по мере поступления данных. Это помогает сохранять данные чистыми, точными и действенными, что, в свою очередь, позволяет пользователям улучшать бизнес-результаты в таких процессах, как привлечение потенциальных клиентов.

Более простое обслуживание трубопровода

Многие приложения для приема данных построены на подпрограммах приема Spark, Hive, MapReduce или Python. В большинстве случаев только человек или команда, написавшие эти процедуры приема, могут легко их поддерживать и управлять ими. Для других отладка или модификация таких приложений — долгий и громоздкий процесс.

Появление современных инструментов самообслуживания корпоративного уровня изменило ситуацию. Такие инструменты предлагают простой в использовании визуальный интерфейс, позволяющий аналитикам данных и их ИТ-специалистам безопасно подключаться к источникам данных, анализировать потоки и предоставлять правила очистки с использованием подхода с минимальным кодом или без кода. Визуальный интерфейс упрощает управление конвейерами в озере данных, облегчая их обслуживание любым пользователем.

Включение поддержки мультиоблака

Большинство предприятий стремятся избежать привязки к поставщикам облачных услуг для таких процессов, как прием и ETL. Они не хотят вкладывать деньги в создание процесса загрузки для одной облачной платформы, а затем тратить больше на создание аналогичного процесса для другой платформы с использованием другого набора инструментов. Усовершенствованные решения для самообслуживания позволяют пользователям использовать одни и те же конвейеры для беспрепятственного приема данных в нескольких облачных средах. Это означает, что пользователи могут быстро перемещать свои конвейеры приема данных на другую облачную платформу, не беспокоясь о дополнительных инвестициях.

Улучшенная аналитика

Благодаря более быстрому предоставлению доступа к более широкому спектру источников данных большему количеству людей в организации, самостоятельный прием данных помогает улучшить аналитику. Решение самообслуживания, обеспечивающее подключаемую поддержку машинного обучения во время загрузки, может помочь сделать процесс аналитики еще более интеллектуальным, предоставляя пользователям визуальные возможности для обучения и создания моделей данных. Кроме того, он может действовать как централизованный репозиторий моделей машинного обучения и аналитики для очистки, проверки и сопоставления данных в конвейере приема, что позволяет легко повторно использовать существующие модели в масштабах предприятия и упрощает управление версиями моделей.

Последнее слово

Самостоятельный прием данных позволяет предприятиям отказаться от фрагментарного подхода к сбору, обогащению и обработке данных. Это позволяет предприятиям принимать, объединять и обрабатывать потоки данных с высокой скоростью по мере их поступления, запускать модели машинного обучения, визуализировать результаты и извлекать из своих данных полезную информацию. Таким образом, передовые инструменты самообслуживания могут высвободить данные и ИТ-специалистов, чтобы они могли сосредоточиться на более важных задачах, которые способствуют росту и прибыльности.

Авторское право 2020 г. принадлежит TDWI, подразделению 1105 Media, Inc. Перепечатано с разрешения TDWI. Посетите TDWI.org для получения дополнительной информации.

Первоначально опубликовано на https://www.gathr.one.