Как оценить и управлять поставщиком науки о данных

«Первое, что вам нужно сделать, это собрать все данные в одном месте». Все мы помним мантру, с которой началась тысяча болезненных ИТ-проектов. Аргумент состоял в том, что это позволит получить «360-градусный взгляд на клиента» или решения, «основанные на данных». После миллионов долларов и многолетних внедрений многие компании испытывают затруднения с тем, чтобы количественно оценить выгоды для бизнеса от этих инициатив. Яркий термин здесь заключается в том, что эти усилия должны были «активировать» аналитику, а не приносить пользу.

Предприятие, ориентированное на данные прежде всего, ошибочно с точки зрения науки о данных. Во-первых, существует бесконечное количество полезных данных. Во-вторых, строгая наука о данных работает сверху вниз - от объективных к зависимым данным. Соответственно, первое, что вам нужно сделать, это определить бизнес-цель и метрику.

Возникла новая порода шарлатанов, и они продают действенные идеи, которые столь же осязаемы, как желатин. Сейчас мы находимся в пузыре рекламы искусственного интеллекта на несколько лет вперед. Каждая консалтинговая фирма, системный интегратор, ИТ-фирма, поставщик программного обеспечения, даже налоговая и аудиторская компания - теперь заявляет об опыте. Все они заявляют, что занимают первоклассную недвижимость в магическом квадранте. Если сфокусирован на предоставлении ценности, хорошо продуманный проект по науке о данных должен окупиться в течение 6 месяцев. Как вы просеиваете математические, визуализационные и магические демонстрации, чтобы выбрать аналитического партнера, который сможет выполнить это обещание?

В этой статье мы утверждаем, что аналитика ничем не отличается от любого другого бизнеса, и ее можно оценивать и управлять соответствующим образом. В этой статье предлагаются предложения для обоих этапов. В первой части освещаются ключевые вопросы для выявления и оценки поставщиков на этапе предложения. Во второй части рассказывается о некоторых передовых методах управления заданием для достижения успеха.

1. Комплексная проверка поставщиков

Первый вопрос, который нужно задать, должен быть очевиден: «В чем заключается их уникальное ценностное предложение (UVP)?» Тем не менее, большое количество поставщиков не могут дать достоверный ответ. . Есть ли у них уникальный источник данных? Есть ли у них проверенные аналитические активы? Могут ли они легко интегрировать и оценивать ценность сторонних данных? Есть ли у них конюшня опытных ученых мирового уровня?

Большинство крупных организаций работают по инерции. Они также склонны ценить только то, что знают, что побуждает их объединять свои унаследованные практики с наукой о данных. Если в их прежних практиках продавались мэйнфреймы, то теперь они продвигают облако. Системные интеграторы и консультанты продолжают продавать сложные интеграции и консультации. Большая четверка склонна продавать инструменты бизнес-аналитики и отчетности. Другие продают «платформы». Знакомая фраза звучит так: «Сначала вам нужно это; наука о данных может быть добавлена ​​позже ». Этот шаг имеет удобное побочное преимущество в том, что инфраструктура, бизнес-аналитика, вычислительные ресурсы, платформы и программные инструменты не должны быть оправданы бизнес-ценностью или рентабельностью инвестиций. Во многих из этих вещей может быть потребность, но их стоимость должна быть оправдана эмпирическим анализом, другими словами, наукой о данных.

Есть ли у руководства действительно опыт в области науки о данных? Многие фирмы просто переименовали свои услуги и персонал в «Data Science». Поэтому спрашивать учетные данные не является грубостью. Попробуйте найти их профили в Linkedin или Google Scholar. Удивительно, сколько организаций буквально не имеют в штате ученых или заявляют, что у них есть «группа специалистов по обработке данных где-то за пределами страны».

В ярком интервью старший партнер Big 4 по искусственному интеллекту признал, что его команда не имеет активов данных, аналитических активов, специалистов по данным и одного успешного консалтингового проекта за два года. Он продолжал хвастаться, что никогда не нанимал специалиста по обработке данных старше 26 лет. Его руководитель практики не имел даже высшего образования. Встретившись со всей командой за ужином, глобальный руководитель отдела искусственного интеллекта потчевал нас историями о том, насколько неловкими в социальном отношении являются ученые. Когда его спросили, как его фирма может конкурировать с другими поставщиками, он объяснил свою стратегию: «Мы являемся надежным партнером по оказанию профессиональных услуг. Мы уже встроены в их бизнес. Мы также можем заниматься их наукой о данных ». Судя по всему, их первичное УВП - наглость.

Вопреки нынешнему духу времени, отрасль не страдает от нехватки навыков или младших ресурсов. Но определенно не хватает руководителей с глубоким пониманием лежащих в основе математики и опытом успешных решений в области науки о данных. Для большинства мероприятий также требуется руководитель полевого инженера - кто-то, кто будет работать напрямую с руководителем по бизнесу и операциям, чтобы фиксировать потоки процессов и бизнес-ограничения, ИТ, точки принятия решений, конечный источник как входных данных, так и данных о результатах. Никто не хочет запускать проект через посредников, в разных часовых поясах и т. Д. Это добавляет путаницы, задержек и накладных расходов и ставит под угрозу выполнение.

Достаточно ли детально их предложение для технической оценки? Подход поставщика должен быть технически надежным и осуществимым. Если они не могут объяснить свои технологии, почему вы должны им доверять? Если поставщик уклоняется от подробностей, ссылаясь на проприетарный IP-адрес, «там» нет. Интеллектуальная собственность, которая настолько проста, что ее можно украсть за 15-минутный диалог, не очень впечатляет.

Кроме того, предлагаемые конкретные алгоритмы могут иметь или не иметь отношение к вашим бизнес-задачам. «Нейронная сеть» - это реальная вещь, довольно хорошо определенная за десятилетия исследований. «Обработка естественного языка» просто означает «мы извлекаем информацию из текста» и может относиться к технологии так же просто, как сопоставление ключевых слов. Прилагательное «познавательный».

Продуманный технический подход - необходимое, но, конечно, не достаточное условие для успеха. Например, коммерчески успешные решения по обнаружению мошенничества используют широкий спектр передовых алгоритмов, включая обнаружение аномалий, сетевой анализ, теорию графов, кластерный анализ, теорию чисел, деревья решений, нейронные сети, линейное программирование и фильтрацию Калмана. На рисунке 1 сравнивается эффективность двух решений для защиты от мошенничества в реальном времени. Действующее решение (синий) объединяет экспертные правила с оптимизированными деревьями решений. Решение задачи (желтый) сочетает в себе временную обработку сигналов, NLP и нейронные сети. (Третий подход, использующий решение когнитивного линейного программирования, не смог улучшить унаследованное решение и был исключен из конкурентов.) Решение проблемы почти вдвое превышает статистическую производительность первого, что напрямую приводит к 100% сокращению любого мошенничества. убытки или эксплуатационные расходы. Все три подхода имеют надежную аналитическую и теоретическую основу; единственный способ решить, какой подход лучше, - это эмпирический тест.

Есть ли у них рентабельность инвестиций или сравнение статистических показателей в своих тематических исследованиях? Нет никаких оправданий тому, что невозможно указать производительность. Наука о данных предполагает дисциплинированный, эмпирический подход к бизнес-проблемам. Производительность и преимущества для бизнеса по сравнению с практикой BAU можно напрямую рассчитать на основе данных или, при необходимости, протестировать в режиме реального времени для чемпионов / претендентов.

Были ли тематические исследования выполнены на реальных данных клиентов? Этот вопрос должен вызывать тревогу, но удивительное количество решений на рынке никогда не тестировалось на реальных данных или было разработано на вспомогательных или несвязанных наборах данных. Для специалиста по данным это буквально немыслимо, но решения, построенные на «синтетических данных», распространены в унаследованных компаниях-разработчиках программного обеспечения, поскольку исторически основное внимание уделялось созданию стандартизированного API, а не извлечению ценности из данных. Многие фирмы даже не защищают доступ к данным своих клиентов, поэтому буквально не могут проверить, может ли их решение принести пользу. Такие системы часто по сути являются механизмами правил и могут серьезно ограничить сложность и ценность последующих технологий принятия решений.

Могут ли они предоставить справочный сайт? Печальный факт из жизни заключается в том, что клиенты не всегда готовы служить справочным сайтом. Учитывая деликатность некоторых проектов, это понятно. Однако, если у многообещающего поставщика нет «альфа-версии» и его технический подход и команда кажутся заслуживающими доверия, у вас есть уникальная возможность договориться о цене. Право на общедоступный справочный сайт и право на исследование данных - все это активы, которые продаются в обмен на услуги. Заключение соглашения о совместной разработке позволяет создавать новые функциональные возможности со скидкой. Во многих крупных консалтинговых компаниях команды Data Science много лет терпят убытки, и они будут стремиться публично доказать свою добросовестность, а также получить доступ к реальным наборам данных для исследований и улучшения продукта.

1. Рекомендации по управлению поставщиками

В идеале участие в науке о данных должно обеспечивать три результата: диагностику, подтверждение ценности и план внедрения. Должен быть созван руководящий комитет для проверки каждого результата в ходе выполнения задания.

Создайте руководящий / обзорный комитет. С самого начала проект должен контролироваться постоянным комитетом ключевых заинтересованных сторон (обычно владельцем прибылей и убытков, бизнесом или владельцем продукта, операционным руководителем и руководителем аналитики). Для проведения комплексной проверки можно использовать руководителей внутренних ИТ-групп, но ИТ-отделы, как правило, не обладают навыками работы с данными и могут «стоить» проекту прекращения существования (завышая оценку затрат на реализацию), даже если они не понимают, насколько это тривиально. миссия или используемые технологии. Команды аналитиков могут активно или пассивно саботировать объективный тест, отказываясь сотрудничать. Другой способ - привлечь стороннего консультанта для проведения комплексной проверки поставщика.

Определите бизнес-цели и показатели эффективности. Насколько это возможно, инженерная цель должна определяться бизнес-метриками (прибыль, доход, затраты, убытки, частота инцидентов, коэффициенты конверсии и т. д.). Четкие метрики также упрощают комплексную проверку, устанавливая конкретные ожидания клиентов и «критерии успеха» для поставщика. Двумя примерами неудачного выбора для целей проверки концепции являются прогнозирование ухода клиентов или создание сегментации клиентов. Ни одно из этих усилий не приносит прямой коммерческой выгоды. (Модель истощения просто предсказывает, что вы потеряете определенных клиентов, а не то, что с этим делать.) Оба варианта использования могут быть выполнены быстро с помощью аналитиков средней квалификации; следовательно, ни один из вариантов использования не служит серьезной проверкой компетентности или технологии поставщика.

Любой бизнес-результат или KPI можно использовать в качестве цели, и, если их можно измерить, их можно предсказать. При полной диагностике данных информационная ценность текущих и потенциальных источников данных может быть измерена по этим показателям. Даже ценность «искусства возможного» может быть просто и четко обозначена с точки зрения сокращения затрат или выявленных возможностей получения дохода.

Запланируйте проверку «годен / не годен» на раннем этапе проекта. «Ни один план не выживает после контакта с данными» - афоризм, заимствованный у Клаузевица, редко оказывается неверным. В течение 2–3 недель после предоставления доступа к данным следует запланировать промежуточный обзор для рассмотрения предварительных результатов. К этому времени поставщик должен был иметь возможность проверить, подтверждается ли цель данными, и обеспечить гарантию минимальной производительности. С другой стороны, в ходе анализа поставщик мог обнаружить и рекомендовать альтернативные цели и приоритеты.

Этот первоначальный отчет, который иногда называют «диагностическим» или «анализом размеров и возможностей», сам по себе следует рассматривать как результат. Часто глубокий эмпирический анализ эффективности, факторов производительности и основных причин дает дополнительные рекомендации по политике и процессам, которые не требуют прогнозного аналитического решения. В этом смысле такие «полезные идеи» являются дополнительным бонусом от работы в области науки о данных. Хотя нет гарантии, что такие «быстрые решения» существуют, обычно выгода от реализации этих рекомендаций может превышать полную стоимость проекта.

После рассмотрения результатов руководящий комитет может решить прервать проект, повторно зафиксировать или изменить приоритеты целей и создать план для использования и проверки полученных знаний. С этого момента не должно быть никаких сомнений в том, принесет ли такой подход ценность; должны быть только вопросы относительно величины выгод и затрат на внедрение.

И наконец, остерегайтесь дорогостоящих планов внедрения. Предварительно, иногда можно оценить только ориентировочные затраты на внедрение, поскольку многие ограничения, а также требования к данным и инфраструктуре обнаруживаются или устанавливаются в процессе создания прототипа. Независимо от того, продает ли поставщик SaaS, платформу, при установке в локальной среде, необходимо заранее предусмотреть разумные условия для стоимости расширенной функциональности, включая возможность установки сторонних и собственных решений.

Некоторые фирмы попытаются окупить свои затраты на этом этапе за счет перепродажи платформ и инфраструктуры. Некоторые отрасли в значительной степени полагаются на устаревшие механизмы принятия решений. Замена этих систем - дорогое мероприятие и часто не является необходимым для реализации науки о данных. Механизм оценки, не зависящий от инфраструктуры, может использоваться для принятия решений клиентов, которые, в свою очередь, могут «проталкиваться» в устаревшие механизмы принятия решений, загружаться в виде таблицы в базу данных или загружаться в существующие инструменты бизнес-аналитики. Этот минимально инвазивный подход, работающий параллельно с потоками производственных данных или системами записи, является одновременно самым быстрым способом окупаемости и минимальными затратами. Улучшения и добавленная функциональность относительно безболезненны, поскольку команда разработчиков Data Science постоянно владеет движком.

Потенциал науки о данных продолжает разбавляться непродуманными инициативами и практиками-самозванцами. Ключом к успеху являются тщательная проверка, определение бизнес-проблемы, установление четких показателей и проверка ценности. На этих холмах есть золото, но будьте осторожны с тем, с кем вы выберете разведку.

Рассел Андерсон (директор, Консультационная служба по аналитике транзакций) обладает более чем 30-летним опытом разработки решений для анализа данных в финансовых услугах, розничной торговле, электронной коммерции и биомедицине. Он работал научным советником в нескольких известных аналитических фирмах, включая IBM, KPMG, Opera Solutions, NICE / Actimize, HCL, HNC Software, Mastercard Europe, JP Morgan Chase и Halifax Bank of Scotland. Имеет докторскую степень. имеет степень бакалавра биоинженерии Калифорнийского университета, автор более 30 научных публикаций и несколько патентов на коммерческие решения для прогнозирования.

Вопросы / комментарии приветствуются: [email protected]