Какова ваша культура данных?

Реализация стратегии компании в отношении данных начинается с создания культуры, основанной на данных.

Создание культуры, которая включает в себя принятие решений на основе данных, требует понимания отдельных участников группы данных, создания вашей технической инфраструктуры и признания влияния предвзятости данных.

Автор Адриан Ливано. декабрь 2019.

(полный пост доступен бесплатно на www.adrianlievano.com)

Оглавление

Резюме:
Мотивация:
Предыстория:
Методология:
Раздел I — Понимание технических участников:
— — Исследователи данных:
— — Инженеры данных:
— — Инженеры-программисты:
— — Аналитики:
— — Менеджеры продуктов/проектов:
Раздел II — Инфраструктура данных и предвзятость:
— — Цель:
— — Предвзятость и этика: осознание того, что это ключ к здоровой культуре данных
Заключение: Станьте организацией, управляемой данными:
Благодарность:
Отзывы:
> — Вспомогательные ресурсы:
Код, используемый для анализа данных и создания визуализаций:
Общедоступные данные и поддержка Код:
Приложение: вспомогательные рисунки

Управляющее резюме:

Данные повсюду — в каждой отрасли, стране, организации и каждом пользователе цифровых приложений данные и то, как мы их храним, обрабатываем, анализируем и делимся полученной информацией с другими, могут быть использованы с большой пользой. Реализация стратегии данных начинается с создания более сильной культуры данных. Чтобы создать более сильную культуру данных, понимайте различия между отдельными участниками в группе данных, создавайте свою техническую инфраструктуру для поддержки сотрудничества между отделами компании и всегда учитывайте влияние данных и организационных предубеждений при реализации проектов данных.

Мотивация:

Данные повсюду — в каждой отрасли, стране, организации и каждом пользователе цифровых приложений данные и то, как мы их храним, обрабатываем, анализируем и делимся полученной информацией с другими, могут быть использованы с большой пользой. Руководители компаний и потенциальные соискатели, заинтересованные в информации, находятся на благодатной почве: стоимость хранения данных экспоненциально снижается, количество и скорость данных увеличиваются, а алгоритмы, открывающие клапан ценности, более доступны с современными средами программирования. 1]. Однако, чтобы получить эту ценность, компании сталкиваются со значительными проблемами, такими как наем и удержание талантов, использование структурированных и неструктурированных наборов данных организации и многое другое [2]. Лучший способ решить эти проблемы — разработать стратегию данных: стратегию организации, управления, анализа и развертывания информационных активов организации [3].

Стратегия данных состоит из нескольких частей: обеспечение соответствия требованиям и безопасности, создание новых продуктов и услуг или развитие возможностей организационной аналитики, и это лишь некоторые из них. Однако решающим элементом в создании эффективной стратегии работы с данными является настройка вашей культуры данных; это влияет на конкурентное преимущество, когда вы объединяете талант, инструменты и принятие решений [4]. Существует множество опросов руководителей высшего звена из различных компаний из списка Fortune 500, каждый из которых добавляет уникальное понимание того, как устроена сильная культура данных. Однако в этом отчете мы продолжаем разговор, рассказывая о создании технических групп и о том, как ваша инфраструктура данных определяет вашу культуру данных. В результате я стремлюсь предоставить руководителям идеи для достижения их бизнес-целей.

Задний план:

Компании, которые отдают приоритет принятию решений на основе данных, создают конкурентные преимущества в своих отраслях: Lyft, Didi Chuxing, Facebook, Google, Apple и другие являются примерами наиболее ценных предприятий, которые используют данные и аналитику для создания новых продуктов и улучшения существующих. продукты или услуги, или привлечь лучшие таланты. Несмотря на экономические возможности, предоставляемые данными в разных отраслях, прогресс в создании культуры, основанной на данных, находится в застое: из 64 опрошенных руководителей высшего звена по технологиям в некоторых из крупнейших корпораций 72% сообщают, что у них нет культуры данных, а 69% — нет. не управляются данными, 53% не рассматривают данные как актив, а 52% не считают, что они конкурируют за свои активы данных и аналитические возможности [10]. В попытках решить эти проблемы ошеломляющие 93% респондентов считают людей и процессы главным препятствием. В другом исследовании, основанном на отчете Глобального института McKinsey, 42%, 45% и 36% руководителей в различных отраслях перечислили обеспечение участия высшего руководства, разработку соответствующей организационной структуры для поддержки аналитической деятельности и разработку эффективной архитектуры данных и технологической инфраструктуры соответственно. , как их 3 самые серьезные проблемы.

Методология:

Ежегодный общеотраслевой опрос Kaggle Data Science & Machine Learning содержит 16 000, 23 859 и 19 717 ответов в 2017, 2018 и 2019 годах соответственно. Для анализа полей опроса используется наука о данных Kaggle и блокнот Jupyter. В этом отчете основное внимание уделяется инженерам-программистам, инженерам по данным, специалистам по данным, аналитикам и менеджерам по продуктам. Я выбрал эту аудиторию, потому что они чаще всего участвуют в команде данных. Весь код, визуализации и вспомогательные ресурсы можно найти в справочном разделе.

Раздел I — Понимание технических участников:

Нехватка аналитических и управленческих кадров для использования данных — это препятствие, с которым компании могут столкнуться в краткосрочной перспективе. Только в Соединенных Штатах не хватает почти 200 000 человек с глубокими аналитическими навыками и 1,5 миллиона менеджеров и аналитиков для анализа данных и принятия решений на основе полученных результатов. Этим квалифицированным работникам требуется многолетняя математическая подготовка и опыт программирования, а также способность задавать целевые бизнес-вопросы и использовать данные для обоснования своих выводов.

«Постоянно ощущается нехватка талантливых аналитиков».

Для компаний, чтобы извлечь выгоду из своих данных, отличный первый шаг начинается с понимания нюансов между людьми в команде данных, чтобы они могли начать строить сильную аналитическую организацию. В современной команде по науке о данных некоторые роли включают инженеров по машинному обучению, инженеров по данным, специалистов по данным, менеджеров по продуктам, аналитиков и инженеров по программному обеспечению — некоторые команды выглядят по-разному в зависимости от размера компании и наборов данных, с которыми они работают [6, 7, 8]. Понимая различия в навыках, образовании и обязанностях, компании могут находить таланты из разных каналов и избегать распространенных ошибок, которые могут привести к уходу этих технических специалистов — некоторые примеры могут включать в себя плохую специфику работы, работу в изоляции или нереалистичные ожидания [9]. . Роли частично совпадают и различаются навыками программирования, математики и общения, но каждая из них использует данные для достижения бизнес-целей.

Бизнес-цель с использованием данных может быть достигнута, например, путем следования циклу создания ценности данных: последовательности четко определенных шагов, которые включают получение дохода от данных. Осведомленность о цикле создания ценности данных и его потенциальном влиянии на доход компании хорошо известна: 92 % респондентов высшего звена сообщили об ускорении темпов инвестиций в «искусственный интеллект», а 55 % из них сообщают об инвестициях в большие данные и ИИ превышает 50 миллионов долларов и продолжает расти [10]. Однако существует недоразумение, потому что увеличение инвестиций в ИИ без основы в цикле создания ценности данных может иметь серьезные последствия — это ставить телегу впереди лошади.

В нижней части пирамиды инженеры-программисты взаимодействуют с датчиками, расположенными в устройствах (мобильных устройствах, промышленном оборудовании и т. д.), для сбора данных; они создают веб-приложения и мобильные пользовательские приложения. Эти пользовательские интерфейсы собирают данные о поведении пользователей. Инженеры данных взаимодействуют с неструктурированными данными в различных форматах и ​​программных алгоритмах для извлечения, преобразования и загрузки данных в структурированные доступные форматы. Именно на этом этапе можно извлечь больше пользы — например, аналитики или специалисты по данным могут собирать выборочные статистические данные, очищать данные или создавать визуализации для информирования стратегических инициатив. В части пирамиды, посвященной исследованию и преобразованию, информационные панели могут быть представлены межфункциональным группам и предоставлять полезную информацию на основе данных компании. На уровне обучения и оптимизации специалисты по обработке и анализу данных и инженеры по машинному обучению либо разрабатывают эксперименты, либо развертывают модели прогнозирования. На самом верху — уровне, куда уходит большая часть долларов корпоративных инвестиций — применяются технологии искусственного интеллекта и глубокого обучения.

Специалисты по данным:

Смешайте роли статистика, бизнес-консультанта и инженера-программиста, и вы получите специалиста по данным: уникальная должность в компаниях, которые работают с неструктурированными и структурированными наборами данных для получения новых идей, которые продвигают бизнес-цели. 25 % специалистов по данным (n = 4085) сообщают, что большую часть времени тратят на анализ и понимание своих наборов данных. На втором месте 22,3% опрошенных, которые тратят время на создание прототипов для изучения своих наборов данных. На самом деле разработка моделей машинного обучения, уточнение алгоритмов или подготовка обучающих наборов являются менее приоритетными на основе этих совокупных данных. Проблема в том, что подавляющее большинство объявлений о вакансиях в области науки о данных вводят в заблуждение, даже если соискателям рекомендуется подавать заявки независимо от требований и инструментов, если у них есть опыт работы в области проекта [11].

Специалисты по данным охватывают самый широкий спектр специальностей бакалавриата, но большинство из них изучали математику, физику, инженерную область помимо компьютерных наук или некоторую степень финансов или экономики. У них также самая высокая концентрация степеней магистра и доктора почти в два раза по сравнению с инженерами данных и инженерами-программистами. Кроме того, их восприятие МООК по сравнению с традиционным традиционным образованием, как правило, хуже, чем у других участников группы по науке о данных: почти 10% респондентов оценили МООК как намного хуже, чем традиционные пути обучения. Несмотря на больший процент респондентов с отрицательными оценками, почти 35% оценили МООК как несколько лучше или намного лучше, а подавляющее число (>70%) специалистов по данным зачислены или прошли курс МООК по науке о данных. Это подтверждает утверждение о том, что как роль специалисты по данным преуспевают в среде, где они могут «создавать вещи» в дополнение к даче советов, и где им предоставляется «пространство для экспериментов и изучения возможностей» для решения бизнес-задач. Ключевой урок из этих пунктов: специалисты по данным имеют разный опыт, но большинство из них сосредоточены на использовании статистики и наборов инструментов разработки программного обеспечения высокого уровня для быстрого объединения данных для получения информации по важным вопросам.

Инженеры данных:

Инженеры данных создают инфраструктуру для перемещения, редактирования и доставки информации людям из разных отделов. Эти отдельные участники являются больше инженерами-программистами, чем статистиками, и, скорее всего, тратят меньше времени на общение с заинтересованными сторонами бизнеса, чем с инженерами-менеджерами. 47 % (n = 624) инженеров данных ответили, что создание или эксплуатация инфраструктуры данных, которую их бизнес использует для хранения, анализа и операционализации данных, является наиболее важной частью их роли. Когда дело доходит до понимания моделей машинного обучения, последующего применения данных, которые они подготавливают, почти 24% инженеров данных рассматривают модели машинного обучения как «черные ящики и то, что в команде есть другие участники», которые могут объяснить выходные данные модели (т.е. , специалисты по данным). Это подтверждает идею о том, что в команде данных инженеры данных меньше сосредоточены на машинном обучении и больше на том, чтобы позволить специалистам по данным использовать свои методы расширенной аналитики. Когда компании начинают собирать эти команды или поддерживать их, важно учитывать, что более слабая культура будет полагаться на отдельного участника для понимания всего стека данных или потребует навыков, которые обычно не ожидаются в отрасли для этой конкретной роли.

Инженеры данных составляют более узкий список степеней бакалавра: 52% сообщают, что имеют степень в области компьютерных наук, 18,6% сообщают о какой-либо инженерной степени, не связанной с компьютерами (химическая, биоинженерная, механическая и т. д.), и 8,7% сообщают о математической степени. . Кроме того, почти 88% инженеров данных имеют степень бакалавра или магистра — только 7% имеют докторскую степень по сравнению с 19% специалистов по данным. Роли данных, которые требуют более ориентированного на исследования подхода (т. Е. Планирование экспериментов, установка соответствующих размеров выборки или подготовка кратких обзоров исследований для сообщения различным заинтересованным сторонам), обычно менее связаны с ролью инженера данных. Однако обнадеживает тот факт, что инженеры по данным тратят столько же времени, сколько и специалисты по данным, продолжая свое обучение с помощью МООК: 42,8% сообщают, что проводят больше всего времени на Coursera. Однако разница заключается в их восприятии качества этих курсов по сравнению с традиционным традиционным образованием. 42,5% дата-инженеров говорят, что МООК «немного лучше» по сравнению с 18% специалистов по данным. 0% сообщают, что это «намного хуже» по сравнению с 9% специалистов по обработке и анализу данных. Известно, что традиционное образование имеет тенденцию больше сосредотачиваться на математике и меньше знакомиться с конкретным языком программирования [12]. Это представление о том, что МООК немного лучше для инженеров по данным, может дать представление о том, какой уровень статистической строгости требуется для ролей.

Инженеры-программисты:

Инженеры-программисты, возможно, являются наиболее понятной ролью в команде обработки данных. От разового обслуживания нескольких проектов данных до поставки моделей машинного обучения или создания пользовательских интерфейсов, позволяющих собирать данные, инженеры-программисты — это хакеры, которые объединяют остальную часть команды для создания пригодного для использования программного обеспечения. Они отличаются от инженеров данных и специалистов по данным во многих отношениях: например, 33,1% инженеров-программистов (n = 2705) сообщают, что тратят менее года на написание кода для анализа данных. Еще 29% сообщают, что тратят всего 1-2 года. По сравнению с учеными данных, например, 31% сообщают, что потратили от 3 до 5 лет, 20% — от 5 до 10 лет, а 10,1% — менее 1 года. Разница огромна, потому что роли и ожидания разные. Из списка вариантов описания важной части их роли на работе, которые включают (i) анализ и понимание своих данных, (ii) создание или запуск модели машинного обучения, (iii) создание инфраструктуры данных, (iv) создание прототипов исследовать модели, (v) или проводить исследования, которые продвигают современное состояние машинного обучения, 32,6% инженеров-программистов сообщают, что «ни одно из этих действий» не является важной частью их роли, по сравнению с 1,4% специалистов по данным и 3,4 % инженеров данных. Однако важно отметить, что количество инженеров-программистов, которые сообщают, что «ни одно из этих действий не является важным» в опросе Kaggle по науке о данных за 2019 год, сократилось до 10%, что подтверждает идею о том, что, хотя они меньше фокусируются на построении моделей, у них все еще есть для анализа данных и понимания влияния того, что они поставляют.

Неудивительно, что 25% инженеров-программистов считают основное статистическое программное обеспечение, такое как Microsoft Excel, основным рабочим инструментом для анализа данных. Ожидания разные, и это важно понимать в команде данных, чтобы создать сильную культуру данных. Инженеры-программисты представляют собой наибольшее количество людей со степенью бакалавра (39,4%) и наименьшее количество степеней магистра (43,7%) по сравнению с другими отдельными участниками группы данных в 2019 году. Из всех студентов со степенью бакалавра 67% сообщают об изучении компьютера. естественные науки, а 13% сообщают, что инженерия, не связанная с компьютерами, является их степенью бакалавра; они наименее разнообразны, когда дело доходит до степени бакалавра. По сравнению с другими отдельными участниками, 67% специалистов по обработке и анализу данных и 57,9% специалистов по данным считают Python наиболее часто используемым языком.

Широкий репертуар языков программирования с менее формальными годами обучения дает представление о роли инженеров-программистов в командах по работе с данными. Вместо того, чтобы распределять внимание инженеров-программистов по базовым методам моделирования, лучше дать им возможность изучить основы, чтобы они могли общаться с учеными и инженерами данных. После этого сосредоточьте их на создании прототипов и инструментов, необходимых для поддержки сбора данных и доставки моделей машинного обучения.

Аналитики:

Аналитики, иногда дополнительно называемые данными или бизнес-аналитиками, отличаются от других ролей тем, что им нужно быть рассказчиками данных: они являются участниками команды, которая менее приспособлена к расширенной статистике или машинному обучению, но может быстро написать последовательность SQL. запросы для анализа данных в компании с учетом гипотезы или вопроса. По словам главного специалиста по принятию решений в Google, лучшие аналитики «просматривают обширные наборы данных», чтобы выявить «полезные жемчужины», и обладают «мастерством визуального представления» и рассказывания историй [13]. Эти типы анализа затем проверяются учеными данных или статистиками, где выводы корректируются с учетом риска, а затем представляются лицам, принимающим решения [14]. Подобно специалистам по данным и инженерам данных, но в отличие от инженеров-программистов, 68% аналитиков (n ~ 2000) сообщают, что большую часть времени они тратят на анализ и понимание данных, чтобы повлиять на решения о продукте или бизнесе. 50% из них сообщают, что SQL они используют регулярно. Кроме того, помимо того, что python является наиболее рекомендуемым языком для изучения в первую очередь, аналитики предлагают SQL больше, чем любой другой технический участник. SQL обеспечивает быстрые запросы и позволяет аналитикам собирать данные для поддержки вопросов, на которые они хотят ответить. Python, однако, чаще используется инженерами данных и специалистами по данным, потому что он позволяет использовать передовые методы моделирования, которых нет в SQL.

Также интересно отметить, что 23% аналитиков данных (n = 1598) и 21% бизнес-аналитиков (n = 778) сообщают, что «не знают», какое специализированное оборудование они используют на регулярной основе, по сравнению с 8,6% специалистов по данным. 13% для инженеров по данным и 9,6% для инженеров-программистов. Хотя есть процент аналитиков, которые сообщают, что знают, что они используют ЦП, аналитики представляют самый низкий процент технических участников, которые понимают эту разницу, и самый низкий процент участников, которые используют графические процессоры. Важно понимать этот нюанс: аналитики используют процессоры и графические процессоры, но по сравнению с их коллегами, более ориентированными на машинное обучение, они используют их меньше или знают, на какой платформе они работают реже. Аналитики не настолько техничны: хотя им нужно быстро анализировать данные и использовать аналогичные инструменты, их главная цель — проверить первоначальную гипотезу, которая соответствует бизнес-цели.

53% бизнес-аналитиков и 51% аналитиков данных имеют степень магистра; 32,6% и 33,8% из этих двух групп соответственно имеют степень бакалавра. Хотя меньший процент из них также имеет докторскую степень (3,50%, 6,5%), они также представляют группу с самым низким процентом докторских степеней. Они также являются группой с самым высоким процентом не имеющих формального образования (1,94%) по сравнению с учеными данных (0,53%). Аналитики также представляют самую большую группу со специальностями бакалавриата в бизнес-дисциплине (27% для бизнес-аналитиков и 14% для аналитиков данных). Это не означает, что они не изучают информатику или математику; есть наблюдение, что они изучают другие, менее инженерные специальности, чаще, чем специалисты по данным, инженеры данных или инженеры-программисты.

Эти данные подтверждают утверждение о том, что чрезмерный акцент на машинном обучении и статистике приведет к тому, что компании потеряют аналитиков. Сильная культура данных зависит от наличия четких бизнес-целей и четкого разграничения обязанностей каждого члена команды. Сосредоточивая аналитиков на просеивании данных, чтобы определить причины для финансирования нового или текущего проекта, а не на построении моделей машинного обучения, компании могут сосредоточить своих специалистов по данным на глубокой технической работе, а их аналитиков — на установлении связи между данными и бизнес-целью. .

Менеджеры продукта/проекта:

Известно, что роли менеджера по продукту в традиционном смысле различаются в зависимости от продукта, размера компании, отрасли и многого другого. Не имея прямой власти над инженерной командой, менеджеры по продукту должны регулярно предоставлять новые функции продукта, одновременно уравновешивая потребности различных команд, таких как инженеры, дизайнеры, менеджмент, маркетинг и продажи. Однако в контексте группы данных от менеджеров по продуктам также ожидается наличие опыта в области науки о данных, моделирования данных, инфраструктуры, статистики и машинного обучения [15]. Их роль отличается от роли аналитика, поскольку они должны предоставлять продукты или использовать активы данных для достижения бизнес-целей. Менеджеры по продукту создают план, график и обычно принимают решения на этом пути. Также ожидается, что они смогут написать свой собственный SQL и интерпретировать результаты, представленные их учеными или аналитиками данных. Подобно аналитикам и специалистам по данным, 57% менеджеров продуктов/проектов (n = 723) заявили, что «анализ и понимание» их данных является важной частью их роли. 37% менеджеров по продуктам/проектам говорят, что «создание прототипов для изучения применения машинного обучения в новых областях является важной» частью их роли. 35,7% менеджеров продуктов/проектов, как и аналитики, также говорят, что базовое статистическое программное обеспечение является их основным инструментом для анализа данных. Когда их спросили о языках программирования или конкретных инструментах машинного обучения, которые использовали участники, менеджеры продуктов/проектов не сильно отстали: 46,4% сообщили, что Scikit-learn, популярная библиотека для всех ролей для машинного обучения, является библиотекой, которую они использовали чаще всего. В дополнение к ожиданию наличия высокого эмоционального интеллекта, чтобы они могли проводить интервью с клиентами, запускать проектные спринты, определять приоритеты функций, распределять ресурсы и т. д., менеджеры по продуктам в команде данных должны понимать общие инструменты, библиотеки и различные варианты использования. машинное обучение, чтобы они могли лучше нацеливаться на бизнес-возможности, определять показатели успеха и разрабатывать модели ценообразования и доходов.

Подавляющий процент менеджеров по продуктам/проектам имеют степень магистра (55,4%), а 9,6% — докторскую степень. На уровне бакалавриата 32,7% менеджеров по продуктам/проектам специализировались на компьютерных науках, 25,9% — на инженерных дисциплинах, не связанных с компьютерами, и 9,6% — на бизнесе (финансы, экономика и т. д.). По сравнению с инженерами данных, специалистами по данным или аналитиками, менеджеры продуктов/проектов представляют собой самый низкий процент респондентов, специализирующихся в области математики или статистики (6,8%). Данные свидетельствуют о том, что, хотя роли менеджера по продукту, как правило, больше связаны с клиентами или руководством, от них по-прежнему ожидается, что они будут вносить высокотехнологичный вклад и сотрудничать с учеными, инженерами или аналитиками данных. Другое наблюдение показывает, что менеджеры по продуктам/проектам оценили МООК как «намного лучше», чем традиционное традиционное обучение, больше, чем любая другая группа (35%) — 0% менеджеров по продуктам/проектам оценили их как намного хуже. Причин может быть много, но это говорит о том, что МООК — отличный вариант для менеджеров по продуктам, чтобы изучить эти ключевые навыки в области науки о данных и аналитические навыки.

Специалисты по данным, инженеры данных, инженеры-программисты, аналитики и менеджеры по продуктам — вот некоторые из участников эффективной аналитической команды. Сильная культура данных понимает их различия, потому что эти роли требуют разных политик поддержки и привычек. Глупо требовать от инженеров-программистов тех же показателей производительности, что и от аналитиков, или ожидать, что потребности специалиста по обработке и анализу данных эквивалентны потребностям менеджера по продукту. Сильная культура данных создана для людей с разными навыками, обязанностями, многолетним опытом и многим другим. Обладая этими знаниями, менеджеры могут стимулировать правильное поведение или разрабатывать новые программы для поддержки развития своих навыков. Сегодняшняя задача включает в себя достаточное разграничение этих ролей, чтобы мы могли предпринять такие действия. Например, с помощью приведенной выше информации некоторые программы могут также включать расширение требований к найму для определенных должностей и сужение их для других или стимулирование онлайн-обучения за счет стипендий, чтобы эти команды могли оставаться в курсе последних событий и быть актуальными в быстро меняющихся условиях. темпы этой отрасли. Таким образом, компании создают здоровую культуру данных, которая может реализовать стратегию данных.

Раздел II — Инфраструктура данных и предвзятость:

Цель:

Описаны различные уровни успешной интеграции технологической инфраструктуры, которые варьируются от состояния исследования (т. е. сбора данных) до использования моделей машинного обучения для автоматизации большей части процесса принятия решений [16]. В промежутке между этими двумя задачами организации разрабатывают и стандартизируют свои активы данных, создают информационные панели данных, чтобы обеспечить динамическое принятие решений, или расширяют процесс принятия решений, включая данные из глобальной сети пользователей. Как описано в серии сообщений в блоге, «минимально жизнеспособный продукт» инфраструктуры данных состоит из конвейеров, которые извлекают, преобразовывают и загружают данные для множества заинтересованных сторон, хранилища данных, предназначенного для запросов, и любых дополнительных инструментов бизнес-аналитики для помогают получить информацию для принятия решений [17]. Культура данных привязана к инфраструктуре, потому что она либо расширяет возможности сотрудников в разных командах, либо продолжает поддерживать только специализированных работников, таких как специалисты по данным, инженеры данных или аналитики.

Культура, основанная на данных, начинается с коллективного расширения прав и возможностей данных: культура, в которой (i) менее технические сотрудники могут работать с данными и извлекать из них пользу, (ii) любой может внести свой вклад в анализ и (iii) больше людей могут открывать и адаптировать или повторно использовать предыдущую работу. Без инфраструктуры или инструментов для поддержки создания этого коллективного расширения возможностей общие проблемы включают: (i) разрозненные, неиспользованные данные, (ii) задержки, (iii) потерянные знания из предыдущего анализа, (iv) ненужное повторение, (v) плохая грамотность данных , и больше. Неэффективность усугубляется, и появляются инструменты для поддержки совместной работы в группах данных. Чтобы реализовать любые потенциальные стратегии работы с данными, компаниям необходимо принять активное решение и интегрироваться с инструментами, расширяющими возможности совместной работы с внутренними и распределенными группами по работе с данными.

Предвзятость и этика: осознание этого является ключом к здоровой культуре данных

Корпорации, стремящиеся использовать большие данные и машинное обучение для извлечения выгоды в своих отраслях и создания оправданных бизнес-рвов, должны учитывать предвзятость данных. Сильная культура данных учитывает влияние предвзятости данных и машинного обучения. Существует множество ресурсов, в которых обсуждаются различные типы предвзятости, существующие в моделях данных и машинного обучения [18]. Подводя итог, предвзятость проникает в данные несколькими основными способами:

  1. Смещение отчетности: результат искажения данных для представления группы, которую вы анализируете.
  2. Предвзятость автоматизации: когда вы предпочитаете предсказание машины неавтоматизированной системе.
  3. Смещение выбора: когда набор данных не представляет их реальное распределение.
  4. Предвзятость групповой атрибуции: тенденция обобщать то, что верно для отдельных лиц, на большую группу, к которой они принадлежат.
  5. Неявная предвзятость: результат предположения, основанного на вашем личном опыте, который не распространяется на другие группы.

Компания, которая пренебрегает обучением или стимулированием своих специалистов по работе с данными учитывать предвзятость в своей повседневной работе, продвигает слабую культуру данных. Среди инженеров-программистов, инженеров по данным, специалистов по данным, бизнес-аналитиков и аналитиков данных, а также менеджеров по продуктам более 60% респондентов опроса (n > 10 000) считают способность объяснять результаты моделирования или прогнозы «очень важной». Кроме того, среди всех респондентов более 54% считают справедливость и предвзятость «очень важными» темами в машинном обучении. Менее 5% респондентов считают это «совсем неважным». Однако есть несоответствие: менее 15% респондентов говорят, что успех проекта данных связан с оценкой несправедливой предвзятости. Вместо этого «доход или бизнес-цели» или «точность модели» сообщаются более чем в 50% случаев для оценки успеха проекта. Существует несоответствие между отдельными участниками, которые используют данные и показатели, установленные менеджерами, которые пренебрегают пониманием ограничений и крайних случаев своих моделей.

По мере того как менеджеры создают свою культуру данных, важно помнить, что данные не являются окончательными; предвзятость может закрасться, и компании, которые завоевывают доверие сотрудников, будут вкладывать время и ресурсы, чтобы понять ограничения своих наборов данных и своих обученных моделей, чтобы понять крайние случаи, которые могут привести к провалу проекта. Этот вдумчивый и взвешенный подход укрепит доверие между межфункциональными командами и повысит доверие к аналитическому отделу.

Заключение. Как стать организацией, управляемой данными:

Большинство выводов, содержащихся в этом отчете, основаны на самых разных прошлых и недавних публикациях. Большая часть представленных данных получена из почти 40 000 опросов респондентов из ежегодного опроса Kaggle по науке о данных и машинному обучению в 2018 и 2019 годах. Однако важно не рассматривать эти утверждения как окончательные. Эти данные представляют собой частоту этих наблюдений. Нет данных, подтверждающих, как тот или иной состав команды — и как вы выбираете навыки или обязанности для данной роли — или как сложность инфраструктуры данных компании способствует общему успеху бизнеса — отслеживаем ли мы доход, устойчивость рынка? Однако это исследование текущего состояния рынка труда и текущей деловой практики, поэтому оно может послужить первым шагом, который компании предпримут для создания более сильной культуры данных для продвижения своих стратегий использования данных. Большинству компаний этого не хватает, поэтому любые действия, направленные на изучение групп данных, их участников и различных уровней качества инфраструктуры данных, могут значительно помочь в использовании большего количества активов данных и достижении более важных бизнес-целей. Данные предназначены для поддержки качественного принятия решений, потому что они никогда не бывают полными. Однако ясно, что после признания этих рисков и допущений каждая организация может найти огромную ценность в укреплении своей культуры данных. Если мы прислушаемся к этим выводам, возможно, мы все сможем стать управляемыми данными и решить больше наших самых серьезных проблем.

Благодарности:

Спасибо моим друзьям и наставникам за то, что прочитали черновики этого поста и предоставили обратную связь. Я благодарен за их поддержку. Я также хотел бы поблагодарить Kaggle за подготовку таких подробных наборов данных из их ежегодного опроса по науке о данных и машинному обучению. Это очень тяжелая работа по очистке, подготовке и представлению данных для анализа сообществу из более чем 1 миллиона энтузиастов данных.

Использованная литература:

[1] Маника, Джеймс и др. Большие данные: следующий рубеж инноваций, конкуренции и производительности. Глобальный институт McKinsey, 2011 г., www.mckinsey.com/~/media/McKinsey/Business%20Functions/McKinsey%20Digital/Our%20Insights/Big%20data%20The%20next%20frontier%20for% 20innovation/MGI_big_data_exec_summary.ashx.

[2] Хенке, Николаус и др. Эпоха аналитики: конкуренция в мире, управляемом данными. Глобальный институт McKinsey, 2016 г., www.mckinsey.com/~/media/McKinsey/Business%20Functions/McKinsey%20Analytics/Our%20Insights/The%20age%20of%20analytics%20Competing%20in%20a%20data%20driven%20world /MGI-The-Age-of-Analytics-Full-report.ashx.

[3] Даллемул, Леандро и др. Какова ваша стратегия работы с данными. Гарвардский бизнес-обзор. Май 2017 г. https://hbr.org/2017/05/whats-your-data-strategy

[4] Рэнсботэм, Сэм и др. Дивиденд таланта. MIT Sloan Management Review, 2015, https://sloanreview.mit.edu/projects/analytics-talent-dividend/

[6] Ху Самсон. Создание аналитической команды в Wish. Середина. Январь 2018 г. https://medium.com/wish-engineering/scaling-analytics-at-wish-619eacb97d16

[7] Нг, Эндрю. Справочник по трансформации ИИ. Как привести свою компанию к успеху в эпоху искусственного интеллекта. Landing.ai. Декабрь 2018 г. https://landing.ai/ai-transformation-playbook/

[8] Торп, Райан. Как структурировать высокоэффективную аналитическую команду. Середина. На пути к науке о данных. Февраль 2018 г. https://towardsdatascience.com/how-to-structure-a-high-performance-analytics-team-f564c92a1aaa

[9] Брукс-Бартлетт, Джонни. Вот почему так много специалистов по данным покидают свои рабочие места. Середина. На пути к науке о данных. Март 2018 г. https://towardsdatascience.com/why-so-many-data-scientists-are-leaving-their-jobs-a1f0329d7ea4

[10] Бин, Рэнди и др. Компании терпят неудачу в своих усилиях стать управляемыми данными. Гарвардский бизнес-обзор. Февраль 2019 г., https://hbr.org/2019/02/companies-are-failing-in-their-efforts-to-become-data-driven

[11] Харрис, Джереми. Проблема с объявлениями о вакансиях в науке о данных. Середина. На пути к науке о данных. Март 2019 г. https://towardsdatascience.com/the-problem-with-data-science-job-postings-8a3542f38724

[12] Бартам, Аммон. Учебные лагеря против колледжа. Блог Трибайта. Май 2016 г. https://triplebyte.com/blog/bootcamps-vs-college

[13] Козырьков, Кэсси. Что делают великие аналитики и почему они нужны каждой организации. Гарвардский бизнес-обзор. Декабрь 2018 г. https://hbr.org/2018/12/what-great-data-analysts-do-and-why-every-organization-needs-them

[14] Диас, Алехандро и др. Почему культура данных имеет значение. Ежеквартальный отчет McKinsey. Сентябрь 2018 г. https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/why-data-culture-matters

[15] Кози, Трей. Восстание менеджера по продуктам данных. Середина. На пути к науке о данных. Июль 2017 г. https://medium.com/@treycausey/rise-of-the-data-product-manager-2fb9961b21d1

[16] Палантир. Повышение уровня вашей компании: лексикон успеха цифровой трансформации. Середина. 22 ноября 2019 г. «https://medium.com/palantir/levels-9be772098942

[17] Болар, Кристофер. Инженер данных против специалиста по данным. Середина. На пути к науке о данных. Декабрь 2018 г. https://towardsdatascience.com/data-engineer-vs-data-scientist-bc8dab5ac124

[18] Разработчики Google. Блог разработчиков Google Справедливость: типы предвзятости. https://developers.google.com/machine-learning/crash-course/fairness/types-of-bias

[19] Crowdflower, Inc. Отчет по науке о данных за 2016 год. Crowdflower, 2016, https://visit.figure-eight.com/rs/416-ZBE-142/images/CrowdFlower_DataScienceReport_2016.pdf

Вспомогательные ресурсы:

[20] Давенпорт, Томас и др. Ученый по данным: самая сексуальная работа 21 века. Гарвардский бизнес-обзор. Октябрь 2012 г. https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-centre?referral=03759&cm_vc=rr_item_page.bottom

[21] Маника, Джеймс и др. Что нам делать с предубеждениями в ИИ. Гарвардский бизнес-обзор. Октябрь 2019 г. https://hbr.org/2019/10/what-do-we-do-about-the-biases-in-ai

[22] Доусетт, Крис. Пришло время поговорить об организационной предвзятости в использовании данных. Середина. На пути к науке о данных. Апрель 2018 г. https://towardsdatascience.com/lets-talk-about-organizational-bias-in-data-use-92ba83bb2c59

[23] Кришнамурти, Прабхакар. Понимание предвзятости данных. Середина. На пути к науке о данных. Сентябрь 2019 г. https://towardsdatascience.com/survey-d4f168791e57

[24] Шривастава, Санджай. Конкуренция в цифровом первом мире. ИТ-директор. Июль 2018 г. https://www.cio.com/article/3294216/recognizing-and-solving-for-ai-bias.html

[25] Родригес, Марлон. Какова роль инженера-программиста ИИ. Середина. На пути к науке о данных. Апрель 2018 г. https://towardsdatascience.com/what-is-the-role-of-an-ai-software-engineer-in-a-data-science-team-eec987203ceb

[26] Остин, Джулия. Что нужно, чтобы стать отличным продакт-менеджером. Гарвардский бизнес-обзор. Декабрь 2017 г. https://hbr.org/2017/12/what-it-takes-to-become-a-great-product-manager

[27] Беринато, Скотт. Наука о данных и искусство убеждения. Гарвардский бизнес-обзор. Февраль 2019 г. https://hbr.org/2019/01/data-science-and-the-art-of-persuasion

[28] Давенпорт, Том и др. Данные не ведут к инсайтам? Культура может быть виновата. Уолл Стрит Джорнал. Сентябрь 2019 г. https://deloitte.wsj.com/cmo/2019/09/29/data-not-leading-to-insights-culture-may-be-to-blame/

[29] Рогати, Моника. Иерархия потребностей ИИ. Хакернун. Июнь 2017 г. https://hackernoon.com/the-ai-hierarchy-of-needs-18f111fcc007

Код, используемый для анализа данных и создания визуализаций:

[30] Ливано, Адриан. Адрианлиевано/kaggle_data_science_2018_survey. GitHub, 2019 г., github.com/adrianlievano/kaggle_data_science_2018_survey.

Я рекомендую разветвить этот репозиторий GitHub, чтобы продолжить анализ наборов данных kaggle. Я написал файл CONTRIBUTING.MD, который нацелен на некоторые дополнительные области, которые следует дополнительно проанализировать (например, темпы роста с течением времени для различных параметров, представляющих интерес). Я также добавил примечания о местах в коде, которые можно улучшить. Я также добавляю список вопросов, которые должны быть включены в будущие ежегодные опросы Kaggle, если мы хотим лучше понять нюансы между ролями технических участников и ролью инфраструктуры данных в культуре данных.

Общедоступные данные и код поддержки:

[31] Кроуфорд, Крис и др. Опрос Kaggle ML & DS за 2018 год. Kaggle, 3 ноября 2018 г., www.kaggle.com/kaggle/kaggle-survey-2018.

[32] Команда, Kaggle. Опрос Kaggle ML & DS за 2019 год. Опрос Kaggle ML & DS за 2019 г., 2019 г., www.kaggle.com/c/kaggle-survey-2019/.

[33] Команда, Kaggle. Состояние машинного обучения и науки о данных 2017. Kaggle, 2017 г., www.kaggle.com/surveys/2017.

[34] Пандей, Парул. Восстание гиков: миф или реальность! Kaggle, Kaggle, 18 ноября 2019 г., www.kaggle.com/parulpandey/geek-girls-rising-myth-or-reality/data?utm_medium=email&utm_source=intercom&utm_campaign=kaggle-survey-2019 .

[35] Амин. Студенческое сообщество в Kaggle. Kaggle, Kaggle, 26 ноября 2019 г., www.kaggle.com/amiiiney/student-community-in-kaggle/comments.

Приложение: вспомогательные рисунки