Наука о данных. Машинное обучение. Искусственный интеллект. Глубокое обучение. Инжиниринг данных. Аналитика данных. Аналитика больших данных. О, бесконечный список модных словечек!

С таким шумом и ажиотажем вокруг Data большинство малых и средних компаний чувствуют себя отчужденными. Работая консультантом, советником и руководителем, я сталкивался с руководителями и командами в небольших компаниях, которые считали, что наука о данных не для них и что использование данных для развития их бизнеса очень сложно и недосягаемо. Хотя верно то, что лидеры в области данных (FAANG и другие) вкладывают миллионы долларов в науку о данных, получение практических выводов из данных для улучшения вашего бизнеса не должно быть недостижимым или быть монополией только для крупных игроков. Хотя путь к грамотности и внедрению данных различается для каждой компании, здесь я пытаюсь демистифицировать ландшафт данных и предложить некоторые основные способы получения интеллектуальных данных из данных.

Стратегия данных — начните с малого

Наличие хорошей стратегии данных обеспечит план и направит все заинтересованные стороны в правильном направлении. Лучшие стратегии работы с данными — это когда компании планируют пропускную способность и распределение ресурсов для управления существующей отчетностью при создании масштабируемой инфраструктуры данных. Хорошие стратегии допускают медленный старт и набирают обороты по мере закладки фундамента. Analytics Vidhya, известное сообщество Data Science, запечатлело это путешествие здесь:

В этой статье я хочу погрузиться в образ мышления и подходы, необходимые для навигации по каждому из этих спектров. Я буду публиковать последующие статьи о технических деталях, инструментах и ​​​​других инструкциях.

Автоматизация отчетности

Большинство компаний начинают с отчетов в таблицах Excel или Google и имеют базовый анализ, необходимый для управления бизнесом. Это работает в небольших масштабах. Однако важно автоматизировать отчетность, если вы хотите перейти к следующим этапам пути к аналитике и науке о данных. Использование инструментов автоматизации в экосистеме электронных таблиц — хорошее начало для достижения успеха на этом этапе — это могут быть VBA, макросы, SharePoint, PowerPivots, Pivots и т. д. Excel — такой мощный инструмент, с помощью которого вы можете создать практически все, о чем только можете мечтать. Целью этого этапа является частичная автоматизация создания отчетов, чтобы вы могли сократить время, затрачиваемое на создание отчетов вручную. Сэкономленное время можно направить на создание базовой инфраструктуры данных (обсуждается в следующем разделе). Вот несколько статей по автоматизации отчетов в excel — Статья 1 и Статья 2.

Архитектура данных

Архитектура данных лежит в основе успешной стратегии работы с данными. Он состоит из технологий, инструментов, моделей, политик и правил, которые управляют сбором, хранением, обработкой, преобразованием, представлением и анализом данных. Настройка этих строительных блоков необходима для перехода к следующему этапу — бизнес-аналитике и визуализации данных.

Важно отметить, что сама архитектура данных может быть бесконечно сложной в зависимости от потребностей бизнеса. Например, для некоторых сложных бизнес-сценариев может потребоваться потоковая передача в реальном времени, в то время как для некоторых вполне подойдет более простой механизм пакетной обработки. Опять же, в этой серии статей основное внимание уделяется простой архитектуре, позволяющей получать ценные сведения и интеллектуальные данные из данных, не слишком беспокоясь о сложной технологической инфраструктуре.

База данных как хранилище аналитических данных

При разработке архитектуры данных важно инвестировать в систему баз данных. Цель здесь состоит в том, чтобы перенести данные из ваших источников в эту базу данных, сохранить и преобразовать их, чтобы их можно было использовать для отчетов. Эта база данных будет служить хранилищем аналитических данных, используемым для хранения и обработки данных. Это также называется озером данных или хранилищем данных (или хранилищем данных), в зависимости от того, как оно используется и настраивается.

Благодаря достижениям в облачных технологиях и доступности служб облачных баз данных имеет смысл отказаться от локальных баз данных и напрямую инвестировать в облачные базы данных. Инвестируя в облако, вы сэкономите деньги, время и ресурсы, когда речь идет о первоначальной настройке, обслуживании и безопасности базы данных. Доступно множество вариантов, и нельзя ошибиться, выбрав одну из лучших баз данных на рынке. Тем не менее, я бы порекомендовал использовать Snowflake, так как это одна из самых гибких, простых в настройке и управлении, а также хорошо масштабируемых баз данных на рынке.

Рискуя повториться, на самом простом уровне задача нашей базы данных состоит в том, чтобы хранить и обрабатывать данные и делать их доступными для отчетов (бизнес-аналитика и визуализация). Базу данных можно разделить на озеро данных и хранилище данных. Первый компонент — это озеро данных, куда данные из различных источников поступают в необработанном виде. Затем данные обрабатываются и преобразуются в пригодный для использования формат для отчетов, который называется хранилищем, и этот компонент базы данных является хранилищем данных.

Прием и интеграция данных

После того, как база данных настроена, следующим шагом будет наполнение ее данными из различных источников/платформ — этими источниками могут быть ERP, CRM, платформы цифрового маркетинга, такие как Google Analytics, или платные медиа-платформы, такие как Google Ads, Facebook, Instagram и другие. другие. В идеале озеро данных содержит данные обо всех точках взаимодействия ваших клиентов с вашей компанией — до покупки, после покупки и даже любые данные, которые вы можете найти после совершения сделки (отмены, после продажи и т. д.).

Процесс внесения данных в базу данных называется приемом или извлечением данных. Хранение данных настолько дешево, насколько это возможно, я сторонник подхода ELT (извлечение, загрузка, преобразование) для загрузки данных. По сути, это означает, что мы получаем данные как есть из разных источников, загружаем их в базу данных… и позже преобразуем их в отчетную структуру. Загрузка происходит в части базы данных озера данных, а данные сохраняются в формате для отчетов в части хранилища данных после преобразования.

Опять же, существует несколько локальных и облачных инструментов для приема данных, обычно называемых инструментами ETL. Я бы продолжил тему и порекомендовал бы перейти на облачные, чтобы избежать обслуживания установки, администрирования и безопасности. Stitch, Fivetran и Hevo Pipeline — одни из хороших, с которыми я сталкивался — каждый из них представляет собой простой в настройке инструмент без кода.

Аналитика данных и бизнес-аналитика

Для полностью автоматизированного стека отчетности требуется надежная платформа и набор инструментов для визуализации данных в практические идеи, которые помогают принимать бизнес-решения. Уровень бизнес-аналитики (BI) архитектуры данных представляет собой пользовательский интерфейс и в идеале является универсальным магазином, к которому пользователи могут обращаться как за аналитическими отчетами, так и за более продвинутыми анализами, основанными на науке о данных. Инструменты BI, такие как Tableau и Power BI, получают доступ к наборам данных и анализируют их, а также представляют аналитические результаты в отчетах, сводках, информационных панелях, графиках, диаграммах и картах, чтобы предоставить пользователям подробную информацию. Опять же, я бы посоветовал использовать облачные версии этих инструментов, чтобы избежать проблем с обслуживанием.

Хорошая инфраструктура анализа данных легко обрабатывает отчеты по различным аспектам бизнеса, таким как отчеты о продажах, расчеты доходов и общие сводки продуктов, обзоры и другие действия. Для большинства предприятий это этап с наибольшей отдачей от инвестиций с точки зрения данных. Цель компании на данном этапе — автоматизировать повторяющиеся периодические отчеты, чтобы группы обработки данных могли бездельничать и обдумывать данные. Будьте аналитиками данных, а не создателями отчетов — позвольте машинам выполнять рутинную обработку отчетов и тратьте свое время на изучение скрытых историй и идей в данных.

Наука о данных — от статистического моделирования до машинного обучения и искусственного интеллекта

Аналитика данных и бизнес-аналитика — это просмотр прошлых событий и получение информации из них. Следующим шагом является использование исторических данных для прогнозирования того, что может произойти в будущем. Именно здесь компании используют статистическое моделирование, прогнозную аналитику и другие передовые методы обработки данных для прогнозирования будущих результатов своих стратегий и усилий.

Путь к BI и аналитике данных может быть довольно линейным (он может быть сложным в зависимости от потребностей бизнеса, но может оставаться простым). Однако, когда дело доходит до следующих этапов путешествия в науку о данных, все становится сложнее — кривая обучения становится круче, и руководителям требуется больше времени, чтобы увидеть результаты своих инвестиций. Существуют инструменты для простого прогнозирования и прогнозного моделирования. Например, в инструменты BI, такие как Tableau, встроены некоторые из этих моделей — простое прогнозирование в Tableau и открытие Эйнштейна в Tableau. Однако, по моему опыту, они довольно простые и могут не дать ожидаемых результатов.

Такие инструменты, как Python и R Studio, популярны для статистического и прогнозного моделирования. Оба они требуют определенного опыта и локальной настройки с вашей стороны. Если вы хорошо разбираетесь в SQL, такие инструменты баз данных, как Snowflake, на самом деле могут быть использованы для многих статистических и прогнозных моделей.

Для дальнейшего продвижения в области машинного обучения потребуются специальные инструменты, такие как Amazon Sagemaker или Google BigQuery ML, которые можно интегрировать с вышеупомянутой архитектурой данных с помощью Snowflake.

Машинное обучение — это шаг вперед в прогнозном моделировании, таком как прогнозирование — когда мы обучаем машины имитировать интеллект и анализ, которые сделал бы человек. Алгоритмы и математические модели используются для распознавания закономерностей, классификации объектов, понимания аномалий и прогнозирования будущих событий. Есть несколько шагов для создания конвейера машинного обучения:

  • Сбор данных
  • Подготовка данных и проектирование признаков
  • Выбор модели и обучение
  • Оценка и настройка
  • Развертывание

Искусственный интеллект даже на шаг впереди машинного обучения, где компьютерная система способна имитировать когнитивные функции человека, такие как решение задач. Понимание вариантов использования (упомянутых в следующем разделе) для машинного обучения и искусственного интеллекта пригодится, чтобы решить, нужно ли вам вообще об этом думать.

Создание масштабируемой инфраструктуры с самого начала имеет решающее значение. Начать с автоматизации отчетности и перейти к науке о данных имеет много преимуществ — это позволяет командам выполнять отчеты, необходимые для бизнеса, при планировании наперед. Компании любого размера могут принять это как план, но он больше подходит для малых и средних компаний, ограниченных в ресурсах.

Дополнительные варианты использования

Так стоит ли все это?

Устав от коротких блогов, призывающих делать то, что я делаю, или следуйте пяти шагам к успеху, я пробую философский и концептуальный подход, который может взять на вооружение любой любопытный. Наука о данных не обязательно должна быть сложной или предназначена только для крупных игроков; Я пытаюсь написать это в рамках серии блогов о мыслительном процессе, стоящем за созданием простых и экономичных платформ для обработки данных.

Используемый как общий термин, наука о данных и ее подмножества — статистический анализ, прогнозная аналитика, большие данные, машинное обучение и искусственный интеллект — могут помочь компаниям позиционировать себя как лидера рынка в соответствующей отрасли. Чем лучше вы строите модели и алгоритмы, собираете и анализируете многомерные данные, тем лучше вы можете понять своих клиентов и превратить архитектуру данных в центр прибыли, а не в обязательное бремя затрат, как в случае с много компаний. По мере того, как вы становитесь больше с точки зрения сбора данных, архитектура должна будет трансформироваться в стек больших данных с возможностью выполнения интервального (пакетная обработка), а также потокового (в режиме реального времени) приема, обработки, анализа данных, отчетность и визуализация.

Если ваши бизнес-цели оправдывают инвестиции в ресурсы, технологии и время для создания возможностей Data Science, это определенно окупится, если все сделано правильно. У всей шумихи вокруг поля есть причина; когда это работает хорошо, это похоже на волшебство! Если вы хотите пройти весь путь, я предлагаю вам иметь реалистичные ожидания — начинайте медленно и наращивайте темп. Даже когда вы доберетесь до этапов моделирования и машинного обучения, это не даст вам немедленных результатов. Требуется тонкая настройка, настройка алгоритмов в соответствии с вашими потребностями и множество итераций, чтобы начать получать результаты, на которые вы надеетесь. В общем, это будет интересная миссия, если вы согласитесь :)