К настоящему времени хорошо известно, что эффективное использование данных является конкурентным преимуществом. Но насколько продвинута ваша организация в использовании данных?

За последние несколько лет я поговорил на эту тему со многими организациями. Я узнал одну вещь: все они проходят один и тот же процесс обучения, заставляя свои данные работать. От гигантов Кремниевой долины до промышленных компаний в Азии и государственных структур в Европе - все проходят одни и те же основные этапы эволюции. Я называю это уровнями зрелости больших данных.

Уровень 0: Скрытый

Данные создаются в ходе обычной деятельности организации, но не используются систематически для принятия решений.

Пример. Служба потоковой передачи фильмов регистрирует каждое событие просмотра фильма с информацией о том, что и кем просматривается.

Уровень 1: Анализ

Данные используются людьми для принятия решений. Аналитики извлекают из данных информацию, такую ​​как графики и цифры, показывающие статистические данные, которые используются людьми для информирования при принятии решений.

Пример. Служба потоковой передачи фильмов использует журналы для создания списков наиболее просматриваемых фильмов с разбивкой по атрибутам пользователя. Редакторы используют их для создания рекомендаций по фильмам для важных сегментов пользователей.

Соответствующие технологии на этом уровне включают традиционные хранилища данных, платформы аналитики данных, такие как Splunk и Elastic Search, а также механизмы запросов для больших данных. типа Искра.

Уровень 2: обучение

Данные используются для изучения и вычисления решений, которые потребуются для достижения поставленной цели. Вместо того, чтобы принимать каждое решение непосредственно на основе данных, люди делают шаг назад от деталей данных и вместо этого формулируют целей и создать ситуацию, при которой система может узнавать решения, которые их достигают, непосредственно из данных. Автономная система учится, какие решения принимать, и вычисляет правильные решения для использования в будущем.

Пример. Служба потоковой передачи фильмов использует машинное обучение для периодического расчета списков рекомендаций по фильмам для каждого сегмента пользователей.

Соответствующие технологии на этом уровне включают инструменты машинного обучения, такие как TensorFlow и PyTorch, платформы машинного обучения , такие как Michelangelo, а также инструменты для автономной обработки и машинного обучения. в масштабе типа Hadoop.

Уровень 3: Актерское мастерство

Данные используются для принятия решений в режиме реального времени. Вместо того, чтобы предварительно вычислять решения в автономном режиме, решения принимаются в тот момент, когда они необходимы. Это позволяет учитывать всю актуальную информацию и принимать решения на основе актуальной информации о мире.

Пример. Служба потоковой передачи фильмов вычисляет рекомендуемые фильмы для каждого конкретного пользователя в момент, когда они обращаются к службе.

Соответствующие технологии: Иногда можно принимать решения, рассматривая одну точку данных. В этих случаях могут использоваться инструменты обслуживания моделей, такие как TensorFlow Serving, или инструменты потоковой обработки, такие как Storm и Flink. В общем, как в примере с потоковой передачей фильмов, для принятия каждого решения необходимо несколько элементов данных, что может быть достигнуто с помощью механизма обслуживания больших данных, такого как Vespa.

Заключение

Сделав шаг назад и подумав об уровне зрелости вашей организации (или команды - организации не всегда развиваются синхронно), может быть полезно понять, с какими проблемами вы сталкиваетесь, какие технологии вам следует рассмотреть и что необходимо. чтобы перейти на следующий уровень в вашей организации.

Надеюсь, этот пост был вам полезен - это первый пост в серии, посвященной этой теме. В следующих постах я расскажу о силах, которые подталкивают самые продвинутые организации мира к переходу на уровень зрелости 3, о преимуществах, которые они видят в этом шаге, и о том, почему это традиционно было так сложно осуществить. .