От приема, хранения, визуализации и даже машинного обучения облачные решения переносят бизнес-аналитику в современную эпоху.

По мере роста компании неизбежно сталкиваются с ограничениями специальной отчетности и начинают думать о способах расширения своей бизнес-аналитики и аналитики. Уже много написано о трех столпах современного стека данных: прием, хранение и визуализация. Их важность невозможно переоценить. Однако, возможно, пришло время расширить эту концепцию, чтобы учесть последние тенденции бизнес-аналитики и изучить дополнительную область, которая становится слишком большой, чтобы ее можно было игнорировать.

Сегодня, чтобы стек данных был действительно «современным», он должен включать четвертый столп: машинное обучение. Было время, когда организации можно было разделить на две категории: те, кто мог позволить себе заниматься машинным обучением, и те, кто не мог. Сегодня, в связи с быстрым внедрением и коммерциализацией машинного обучения, есть только одна категория: организации, которые не могут позволить себе игнорировать его.

Центральная стопка

Есть множество причин не запускать аналитику непосредственно на интерфейсных системах. Данные находятся в постоянном потоке. Нет прослеживаемости или исторических снимков. Сами аналитики будут конфликтовать с операционными процессами и бороться за ограниченные системные ресурсы. Аналитика неизменно требует использования хранилища данных.

Есть склад? Теперь требуется инструмент для загрузки данных. Затем идут сами отчеты. Мощный набор отчетов поможет бизнес-командам контекстуализировать массу данных, хранящихся в хранилище данных, и выявить идеи, которые в противном случае могли бы остаться незамеченными в чистой табличной форме.

Обсуждение современного стека данных обычно заканчивается отчетностью. К сожалению, отрасль развивается так быстро, что отчетов, отвечающих на важные бизнес-вопросы, уже недостаточно. Чтобы оставаться конкурентоспособными, организациям необходимо машинное обучение, чтобы подсказывать им, какие вопросы им следует задавать в первую очередь!

Для организаций, стремящихся расширить или модернизировать свои операции бизнес-аналитики, возможности действительно могут быть устрашающими. В каждой категории так много предложений программного обеспечения как услуги (SaaS), что даже сужение жизнеспособного списка кандидатов может быть утомительным - не говоря уже о том, чтобы обеспечить бесшовную интеграцию между каждым из четырех столпов.

Однако надежда есть. Предлагаемые сегодня продукты SaaS более универсальны и масштабируемы, чем когда-либо прежде, благодаря внедрению облачных вычислений. Кроме того, они обычно дешевле традиционных локальных альтернатив.

В этой статье мы рассмотрим каждый из четырех столпов стека бизнес-аналитики и исследуем, какие ведущие продукты предлагаются в каждой категории. Решения, упомянутые ниже, хотя и не являются исчерпывающим, направлены на то, чтобы выделить широкий спектр альтернатив в каждой области.

(Облако) Хранилище данных

До недавнего времени «облако» было исключением из нормы локальных хранилищ данных. Однако к 2018 году основные игроки, которые сегодня доминируют в этом секторе, достигли зрелости. С учетом некоторого времени, необходимого для внедрения и миграции в отрасли, мы подошли к 2021 году, когда локальное решение является скорее помехой, чем активом.

Независимо от того, в облаке или локально, DW по-прежнему работает на физическом оборудовании. Данные по-прежнему хранятся на дисках (или массивах памяти), а процессоры выполняют вычисления. Однако, в отличие от локального сервера, поставщики облачных хранилищ данных предлагают неограниченную вычислительную мощность, бесконечную масштабируемость, отсутствие предварительных обязательств, время безотказной работы 99,99%, отсутствие обслуживания и более низкие затраты.

Сегодня выбор провайдера DW никогда не был таким простым. По мере того, как ведущие в отрасли решения WH достигают зрелости, они сходятся по таким показателям, как стоимость, производительность и удобство использования. Для большинства компаний выбор поставщика DW может зависеть от того, насколько хорошо они интегрируются со своим существующим технологическим стеком (Redshift для тех, кто уже вложил значительные средства в экосистему AWS, Azure в случае Microsoft. Snowflake для многоплатформенных макетов или новых реализаций. )

Вот краткое изложение четырех ведущих провайдеров DW, присутствующих в настоящее время на рынке:

Красное смещение

Amazon является лидером в этой сфере, запустив Redshift еще в 2012 году и популяризировав концепцию облачных вычислений. Amazon объединила это предложение с дешевым хранилищем (S3), централизованным управлением и огромным набором дополнительных инструментов в рамках своей платформы AWS. После разветвления Postgres SQL Redshift будет знаком многим разработчикам. Это легко настраиваемое решение для тех, кому удобно немного поработать администратором, чтобы настроить свои рабочие нагрузки в соответствии с точными требованиями.

Снежинка

Snowflake штурмом захватила рынок DW, предложив решение с практически нулевым обслуживанием, которое отделяло хранилище от вычислений. Используя это разделение, Snowflake может предложить полностью независимые от поставщика реализации для любого бизнес-сценария (облачное хранилище Google с хостингом Azure, S3 на облачной платформе Google и т. Д.). Распространенный (и полностью субъективный) отраслевой консенсус заключается в том, что Snowflake требует минимум администрирования. для работы и предлагает массу мощных функций непосредственно через SQL, что одинаково завоевало сердца инженеров, разработчиков моделей и специалистов по данным.

Google BigQuery

Естественный выбор для тех, кто уже инвестировал в экосистему Google. BigQuery позволяет пользователям запрашивать данные на Google Диске и в Google Таблицах, используя единый набор учетных данных с помощью федеративных запросов. Хотя все поставщики облачных услуг чрезвычайно конкурентоспособны, BigQuery часто превосходит по рентабельности во многих случаях использования.

Однако когда дело доходит до SQL, BigQuery может немного сбивать с толку. BigQuery использует два стандарта SQL параллельно (Legacy и Standard), но иногда по-прежнему не справляется, требуя, чтобы пользователи полагались на API вместо запроса для достижения своих аналитических целей.

Microsoft Azure Synapse

Простая интеграция Azure с продуктами Microsoft является огромным преимуществом для организаций, которые используют Microsoft (например, для всех). Azure выделяется, когда речь идет о безопасности данных, использовании существующих протоколов конфиденциальности Microsoft и возможности тонкой настройки рабочих нагрузок и вычислительные ресурсы. Azure доступен в бессерверных и выделенных вариантах, которые могут иметь значение в зависимости от реализаций Data Lake или Data Warehouse. Еще одним большим преимуществом является тесная интеграция с Power BI, инструментом визуализации данных Microsoft, который получает отдельную запись в разделе Отчетность ниже.

В итоге

По характеру продукта и в отличие от инвестиций в физическое оборудование, независимо от того, с каким поставщиком облачных услуг вы работаете, у вас не будет никаких авансовых затрат, бесконечного масштабирования и минимальных затрат на обслуживание системы. Облачная архитектура никогда не исчерпывает память, никогда не требует аппаратного сброса и, конечно же, не ржавеет (извините, Гил Гандерсон, не в этот раз).

ELT

Извлеките, загрузите, затем, и только потом, трансформируйте. ETL мертв - убит законом Мура и падающими затратами на хранение. Сегодня разумной альтернативой является подход ELT. В облаке стало экономически выгодным загружать огромные объемы необработанных данных, а затем преобразовывать их в хранилище данных.

Очевидно, что бизнес-правила со временем будут меняться. Инфраструктура ELT позволяет команде бизнес-аналитики обновлять на лету, а не перезагружать все с нуля с помощью ETL.

В классическом подходе ETL буква T была главной особенностью инструмента, поскольку данные приходилось преобразовывать во время извлечения. Однако выполнение EL перед T означает использование самого мощного набора инструментов T из когда-либо созданных: SQL-запросы, выполняемые с безграничной облачной обработкой. Таким образом, современные инструменты ELT, чтобы отличаться друг от друга, полагаются на другую особенность: готовые соединители.

Если установлены правильные драйверы, передача данных между двумя системами является тривиальной задачей. Однако знание того, где искать и, что более важно, как нормализовать поля из разнородных источников, может потребовать значительных усилий и анализа. Для многих организаций наличие инструмента, который автоматически интегрируется со сторонними системами и обеспечивает обновления этих подключений без обслуживания, является многократно окупаемым вложением, поскольку позволяет им сосредоточиться на своих основных бизнес-процессах.

Вот несколько современных инструментов ELT, которые представляют собой полностью управляемые решения SaaS, во многом похожие на облачные базы данных, для обслуживания которых они оптимизированы.

Матиллион

ELT Matillion специально создан для облачных баз данных, подобных упомянутым ранее. Его простой графический интерфейс без кода особенно привлекателен для клиентов без специальной группы инженеров (хотя, безусловно, доступны расширенные элементы управления). Их выставление счетов производится на почасовой основе, что может быть привлекательной функцией для клиентов с предсказуемыми схемами загрузки и много времени простоя.

Fivetran

Fivetran - популярный выбор, потому что это комплексное решение черный ящик, которое легко подключается к более чем 100 источникам данных и передает полностью пригодные для использования нормализованные данные непосредственно в свои хранилища данных. Однако подход черного ящика также может быть его самым большим недостатком, поскольку возможности настройки ограничены, а ошибки, какими бы редкими они ни были, трудно диагностировать. Ценообразование Fivetran, основанное на потреблении, также не для всех, так как организации, которые часто осуществляют переводы больших объемов, могут счесть их непомерно высокими.

Стежка

Stitch - это решение конвейера данных ETL с самообслуживанием, созданное для разработчиков. Это позволяет в высокой степени настраивать планирование и обработку входящих данных. Его REST API позволяет клиентам загружать данные непосредственно в свои хранилища через приложения и проприетарные веб-интерфейсы. При ценах от 100 долларов в месяц Stitch может быть хорошим выбором для организаций различного размера и технических потребностей.

Поток воздуха

Airflow не облачный. Это даже не ETL - просто инструмент оркестровки, используемый для связывания цепочек скриптов и процессов по заданному расписанию. Его интерфейс немного грубоват и используется только для мониторинга и поддержки заданий, которые необходимо настраивать вручную через Python. Так как же он попал в список?

Цена.

Поскольку воздушный поток является открытым исходным кодом, и с нулевой ценой сложно конкурировать, он остается популярным выбором для многих технически подкованных и экономных организаций. Для тех, у кого есть специальная команда инженеров, способная организовывать и поддерживать коннекторы и преобразования, Airflow - очень мощный инструмент, не зависящий от платформы. Его открытый исходный код означает, что его можно расширять с помощью плагинов и настраивать для различных сложных задач.

Визуализация

Теперь, когда данные были извлечены, загружены и преобразованы, они готовы для представления конечным пользователям. Невозможно переоценить разницу между показом данных и просмотром, действительно увидением. Как обсуждалось в статье Расширьте свое мышление с помощью инструментов бизнес-аналитики, визуальная презентация может буквально стать суперсилой.

Вот несколько готовых к работе с облаком инструментов отчетности, которые помогут вам раскрыть эту сверхспособность.

Tableau

Для большинства компаний Tableau - это безупречный ответ на их потребности в области визуализации: не слишком сложный, хорошо оснащенный и по разумной цене. Tableau предлагает интуитивно понятный интерфейс с множеством расширенных функций, которые удовлетворят любой класс пользователей. Он полностью независим от платформы и предлагает множество инструментов для управления и совместной работы.

Одна из областей, в которой Tableau действительно выделяется, - это ее документация. Благодаря мультимедийным обучающим ресурсам (бесплатно для всех), множеству практических примеров прямо в документации и полезному сообществу разработчиков нет никаких препятствий для начала работы с Tableau.

Power BI

В то время как совместимость с Office365 и экосистемой Microsoft уже будет убедительным аргументом в пользу многих, Power BI удается занять первое место в Magic Quadrant Gartner исключительно за счет собственных отчетных заслуг. Power BI - это не отдельный инструмент, а скорее комплекс решений бизнес-аналитики (Power Query - ETL, Power Pivot - моделирование и анализ, Power View - интерактивные отчеты и визуализация, подключаемый модуль Excel, настольное приложение и т. Д.), Которые удовлетворят любые запросы. Пользователь.

Однако эта тесная связь с продуктами Microsoft также может быть самым большим недостатком Power BI. Клиенты Power BI ограничены развертыванием в Microsoft Azure, что может означать манипулирование безопасностью и интеграцией между различными платформами для тех, кто еще не инвестировал.

Смотритель

Было ли это подсознательным oo в названии или изощренными опциями визуализации и встроенными функциями моделирования, которые привели к тому, что Looker был приобретен Google? Возможно, мир никогда не узнает. Однако ясно то, что эта убийственная комбинация сделала Looker идеальным выбором для многих организаций. Он достаточно интуитивно понятен для любого бизнес-пользователя, но дает любознательному аналитику достаточно свободы для эффективного самообслуживания.

Для организаций, не имеющих команды моделирования или тех, кто не желает тратить дополнительные средства на специальный инструмент ETL, слой моделирования данных Looker «LookML» может стать эффективным способом восполнить этот пробел. С другой стороны, эта функция стоит недешево, поэтому небольшие команды могут посчитать цену Looker слишком высокой по сравнению с другими продуктами.

Режим

Несмотря на то, что Gartner не назвал его, Mode стал фаворитом фанатов среди технически подкованных аналитиков и команд по анализу данных. В то время как большинство инструментов отчетности бизнес-аналитики генерируют SQL-запросы через визуальный интерфейс, Mode полагается на то, что пользователи пишут SQL и создают записные книжки на Python и R для построения своих визуализаций. Это требует большого доверия к аналитикам, чтобы они могли писать эффективные запросы, не перегружая склад. Для многих организаций с сильными аналитическими командами эта вера окупается, поскольку никакие другие инструменты не позволяют SQL и сценариям сидеть бок о бок в одном инструменте и работать вместе так же эффективно, как в режиме.

Базовая ценовая политика Mode абсолютно бесплатна. Он предлагает множество функций дизайна и совместной работы, позволяющих быстро создавать прототипы до перехода на премиальный план, который по-прежнему будет дешевле, чем у большинства его конкурентов.

Машинное обучение

Как и «большие данные» в 2014 году, машинное обучение (ML) в 2021 году еще не получило широкого понимания, но оно широко востребовано. Как и большие данные, которые в конечном итоге распались на несколько специализированных концепций (озеро данных, массивная параллельная обработка {MPP}, NoSql и неструктурированные данные и т. Д.), Общая идея машинного обучения также начинает растворяться в конкретных концепциях и технологиях по мере своего развития.

Gartner помогла сломать этот естественный путь открытий и внедрения, представив свою концепцию «цикла ажиотажа». По мере появления новых технологий они порождают фантастические ожидания. Позже, когда их истинный потенциал станет понятен посредством экспериментов, наступает разочарование. Но когда шумиха утихает, начинается настоящая продуктивность.

Во-первых, что такое ML?

Машинное обучение, глубокое обучение и нейронные сети попадают в более широкую категорию вычислений, называемую искусственным интеллектом. В свою очередь, каждый из них может использоваться для узкоспециализированных задач, таких как обработка естественного языка (NLP), преобразование речи в текст, прогнозирование и классификация, и это лишь некоторые из них. Однако, когда дело доходит до бизнес-аналитики, наиболее заметной концепцией является «классический» (неглубокий, не нейронный) ML, который опирается на структурированные данные и человеческий вклад для обучения модели возвращению желаемого результата.

Благодаря коммерциализации ML в настоящее время существует множество облачных продуктов ML-as-a-service (MLaaS), которые конкурируют по таким функциям, как абстракция, простота, автоматизация, ML-Ops, совместная работа, расширяемость и, конечно же, цена. .

Традиционный проект бизнес-аналитики обычно включает построение моделей данных, основанных на уже существующих требованиях. Затем аналитики манипулируют этими данными с помощью бизнес-знаний и интуиции, чтобы прийти к пониманию. Однако чрезмерное использование интуиции может быть опасным, особенно в мире после COVID, который гарантирует, что будущее не будет похоже на прошлое.

ML в значительной степени исключает интуицию из уравнения, устраняя бизнес-логику и вместо этого полагаясь на алгоритмы и MPP, чтобы выявить движущие силы, лежащие в основе бизнес-показателей.

Некоторые проекты машинного обучения выигрывают от простоты и быстрого прототипирования, в то время как более широкие реализации требуют надежного конвейера ML-Ops, способного учиться на собственном выводе. Чтобы узнать больше о важности жизненного цикла машинного обучения, прочтите эту отличную статью Сида Мансура из Sentrana AI.

Вот несколько решений MLaaS, которые призваны удовлетворить потребность в интуиции на основе алгоритмов с разной степенью сложности и настройки.

Google AutoML (таблицы)

Простота и стоимость - главные преимущества AutoML Tables от Google. Единственное, что инструмент требует от своих пользователей, - это идентифицировать целевые показатели и соответствующие функции в своих данных. Инструмент автоматически обработает все остальное, выбрав лучшую модель машинного обучения (с использованием ИИ!), Подходящую для данных, и развернет ее для дальнейшего использования через веб-интерфейс или REST API. К сожалению, данные должны храниться в GCP или загружаться через CSV.

Amazon Sagemaker

Sagemaker фокусируется на абстрагировании инфраструктуры, необходимой для обучения моделей машинного обучения, но по-прежнему стремится предоставить полнофункциональный инструмент, в который может влюбиться любой специалист по данным. Хотя Amazon был занят расширением Sagemaker с помощью таких инструментов, как Autopilot (аналогично Auto ML) и Sagemaker Studio (аналогично Dataiku), Sagemaker явно ориентирован на команды с сильным инженерным присутствием. Как и в случае с AutoML, ваши данные должны будут попасть на платформу AWS для доступа.

Dataiku

Dataiku - это не еще один MLaaS, который надеется интегрировать с вашим существующим стеком - он нацелен на полную замену существующего стека. Помимо ML, Dataiku обеспечивает оркестровку (Airflow), записные книжки (Mode / Jupyter), ML-Ops и даже управление проектами.

В центре его внимания не простое машинное обучение (как Google) и не выделенная платформа для инженеров и специалистов по данным, а создание структурированной среды, в которой вся команда бизнес-аналитики может сотрудничать на протяжении всего жизненного цикла проекта машинного обучения.

Датабрики

Databricks использует архитектуру Apache Spark и запускает движок ML Flow. Вместо того, чтобы быть универсальной платформой, Databricks интегрирует Apache Spark, AWS или Azure и MLFlow и связывает их через централизованный интерфейс. Поскольку Spark был одним из исходных решений машинного обучения, основанных на кластерной локальной архитектуре, многие клиенты уже знакомы с этой технологией. У них могут быть даже существующие проекты, которые можно легко перенести, чтобы повысить эффективность и снизить затраты на облачные вычисления.

Заключение

Хорошо разработанный стек бизнес-аналитики - важнейшая часть успеха современного предприятия. Несмотря на постоянно меняющиеся потребности бизнеса (например, масштабируемость, прогнозный анализ, машинное обучение), техническая отрасль идет в ногу с потребностями пользователей и предоставляет решения SaaS для удовлетворения любого типа аппетита и бюджета.

Обсуждаемые здесь продукты не являются исчерпывающим списком. Скорее, они предназначены для демонстрации разнообразия решений, доступных в каждой категории, и служат отправной точкой для всех, кто хочет понять, какие функции характерны для лидирующих на сегодняшний день продуктов.

Однако в этой статье полностью упускается из виду один ключевой аспект современной бизнес-аналитики: стек поддержки. Опорный стек - это клей, который обеспечивает бесперебойную работу центрального стека за счет автоматизации, CICD и управления. В следующей статье мы рассмотрим расширенный стек BI и инструменты, обеспечивающие гибкость в этих областях.

В нем будут рассмотрены такие инструменты, как SqlDBM, который упрощает работу и понимание уровня хранилища, помогая сэкономить бесчисленные часы как разработчикам, так и бизнес-пользователям. Такие инструменты, как GitHub, защищают ценный код, над созданием и совершенствованием которого так усердно работают аналитики. Это и многое другое, так что следите за обновлениями.