Ранее в этом году я читал гостевую лекцию в SJSU B-School о важности грамотности в области данных и аналитики для бизнес-менеджеров. Один из студентов спросил меня, почему акции Tesla настолько переоценены по сравнению с другими автопроизводителями (до разгрома в Твиттере PE для TSLA составлял 78 по сравнению с Ford: 4, GM: 6, Toyota: 10). У Tesla действительно есть лучший электромобиль с самым большим пробегом, но это только вопрос времени, когда другие автопроизводители догонят его. Это заставило меня задуматься, и я провел небольшое исследование в Google. Насколько я понимаю, Tesla — это, по сути, компания данных, и именно в этом заключается ее Х-фактор. Он собрал более 3 миллиардов миль реальных данных о вождении, что значительно больше, чем 20 миллионов миль, собранных его ближайшим конкурентом. Каждое взаимодействие человека с транспортным средством (т. е. поворот колеса, нажатие на тормоз, смена полосы движения) генерирует точку данных, которая анализируется и используется для улучшения или создания новых алгоритмов, которые отправляются обратно в транспортное средство посредством обновлений по беспроводной сети. Таким образом, по сути, владельцы Tesla не просто водят машину, чтобы добираться до работы или выполнять поручения, они одновременно тренируют двигатели Tesla AI/ML по ходу дела. Тесле еще предстоит извлечь значительную финансовую выгоду из этого множества данных. По оценкам Seeking Alpha, Tesla сможет монетизировать данные об автомобилях за счет страхования, программной рекламы и возможностей совместной мобильности, что потенциально может принести компании более 100 миллиардов долларов дохода к 2030 году. Точно так же есть и другие сообразительные компании, такие как Amazon. рекомендации электронной коммерции «вам также могут понравиться», механизм рекомендаций фильмов Netflix, динамическое ценообразование Uber, которые являются ключевыми факторами их дохода.

Так почему же данные вдруг стали такими важными? Мы можем выделить три ключевых фактора: а) оцифровка привела к резкому увеличению объемов генерируемых данных; б) значительное улучшение емкости хранения и вычислительной мощности сделало хранение и обработку огромных объемов данных очень простым и дешевым; Аналитика (AI/ML) позволила делать более глубокие, сложные и интересные прогнозы и выводы.

Тем не менее, большинство компаний, особенно корпоративных, не в состоянии понять истинную ценность своих данных. Во многих случаях они рискуют не только разрушением, но и исчезновением.

Так в чем проблема? Чтобы понять это, давайте посмотрим на экосистему разработки программного обеспечения с точки зрения данных. Мы можем разделить приложения и компоненты на три группы.

Для команд, владеющих приложениями и компонентами, генерирующими данные, генерация данных — это не только запоздалая мысль, но иногда вообще не думается. Результатом является низкое качество данных, отсутствующие данные и несовместимые форматы данных. Данные не фигурируют в их уставе, OKR или бонусах.

Для команд, занимающихся генерированием идей (наука о данных + разработка данных), самой большой проблемой является отсутствие правильных навыков и процессов для производства и управления моделями машинного обучения (MLOps), не говоря уже об огромном количестве потраченных впустую усилий при обработке данных из-за ошибок. производится на этапе генерации данных.

Наконец, многим командам, ответственным за использование этих идей, все еще не хватает уверенности или видения, чтобы принимать автоматизированные и важные бизнес-решения на основе этих идей. В основном они используют это как совет людям для принятия решений и подрывают истинный потенциал, который можно реализовать из их данных.

Итак, каково решение? Мы не думаем, что решение лежит в одном продукте или платформе. Это должно быть сочетание i) инструментов, фреймворков и платформ — один размер не подходит всем, ii) процессов — текущие инженерные процессы не предназначены для учета роли данных, iii) организационной структуры — команды должны быть организованы по-разному, так что генераторы данных, потребители данных, генераторы и потребители информации работают очень тесно.

Для многих из вас это может показаться очевидным, но мне нужно было установить контекст, прежде чем мы обсудим наш подход к решению. Мы работали с несколькими разными клиентами, чтобы точно настроить и проверить наш подход. Оставайтесь с нами для следующей статьи из этой серии, где мы поговорим о решении.

Часть II. Данные — приложение с шестью факторами