Formula Racing и наука о данных: часть 1

Задний план

«Как должна выглядеть команда специалистов по обработке и анализу данных, чтобы обеспечивать постоянную ощутимую ценность для бизнеса?» — это вопрос, на который в последние пару лет всегда не удавалось найти прямого ответа. Во время просмотра итальянской Формулы-1 в воскресенье у меня внезапно возник тот же вопрос; и сопровождающий это был ответ. Четкая фокусировка на различных взаимодополняющих ролях в каждой команде Формулы-1 для обеспечения успеха их пилотов, казалось, дала ответ на вопрос.

Мудро экспериментируйте, быстро терпите неудачу и быстрее исправляйте

Согласно «формуле» (и, следовательно, термину «Формулы-гонки»), установленной FIA, у команд Формулы-1 перед началом сезона всегда есть базовая машина.

Затем, перед каждой гонкой, начинается процесс постоянных экспериментов, пока автомобиль не будет готов к этой гонке. Оцениваются такие факторы, как температура трассы, прогноз дождя, скорость износа шин, прижимная сила на поворотах и прямых, исторические результаты и т. д., и автомобиль настраивается так, чтобы он подходил для трассы. Однако контролировать или даже предвидеть все факторы просто невозможно.

Во время гонки все запланированные и незапланированные проблемы легко решаются с помощью хорошо отработанной возможности переключиться и исправить.

После гонки снова начинается постоянное экспериментирование для следующей гонки.

В целом я бы назвал это подходом «Разумно экспериментируй, быстро ошибайся и быстрее исправляй».

Я считаю, что этот подход прекрасно сочетается и с наукой о данных. Никогда не существует идеальной математической модели, позволяющей предсказать желаемый бизнес-результат.

Перед развертыванием модели обработки данных в рабочей среде вы проводите постоянные эксперименты и обучаете модель до тех пор, пока прогнозы не будут удовлетворительно близки к желаемому результату.

Во время производственного цикла неизменно требуется незначительная настройка для соответствия реальным данным, когда модель нуждается в некоторой обработке переключить и исправить для типов данных, томов и т. д.

После анализа результатов прогнозирования в производственной среде снова начинается постоянное экспериментирование с моделью для следующей функции или изменения направления бизнеса.

Важно отметить, что наука о данных сильно отличается от типичных ИТ-проектов, таких как внедрение ERP/COTS или разработка приложений. Это была «курица с золотым яйцом», которая заработала миллионы (или миллиарды?) для ИТ-услуг, продуктов и консалтинговых фирм; во-первых, тратя годы на внедрение ERP и разработку программного обеспечения, а во-вторых, тратя больше лет на поддержание того же самого!! Кроме того, я бы не стал большим сторонником аргумента о том, что недавний материал «Agile — DevOps» обеспечивает преимущества ИТ в сжатых сроках и бюджетах!

Что такое формула

Итак, вот в чем дело.

В F1 все команды используют одну и ту же базовую «формулу», то есть правила, установленные FIA. Однако успешные команды (такие как Scuderia Ferrari, Mercedes Racing с бюджетом около 410 миллионов долларов) изменили свою командную структуру, которая дает им конкурентное преимущество. И это развивалось путем проб и ошибок на протяжении многих лет, чтобы разные роли работали как часы. Новые команды (такие как Torro Rosso, Haas с бюджетом около 100 миллионов долларов) используют проверенные и проверенные структуры успешных команд и адаптируются в соответствии с доступностью своих ресурсов. (2021 год будет интересным, когда бюджеты будут ограничены 175 миллионами долларов !!)

Каждая командная роль — руководитель команды, инженеры, питбригада и водитель — имеет определенную функцию, которая напрямую связана с общей целью максимального успеха пилота на трассе.

Дело в том, что командные структуры развивались для удовлетворения конкретных потребностей и ограничений Ф1, а не просто клонировали командные структуры из «другого похожего автоспорта».

В области науки о данных все организации также имеют общий котел с одинаковыми ингредиентами для всех. И ингредиенты: математические модели, необработанные алгоритмы, платформы машинного обучения, такие как Jupyter, языки программирования, такие как Python, R, Julia, SQL, приложения и базы данных, поставщик облачных технологий, Excel (J) и так далее. Кроме того, в Интернете есть бесплатная золотая жила невероятно качественных знаний и ресурсов.

Однако многие организации изо всех сил пытались создать свою собственную успешную формулу, используя общий набор ингредиентов.

В подавляющем большинстве таких случаев организации подходят к своим инициативам в области науки о данных как к еще одному «ИТ-проекту» и полностью упускают из виду важность состава команды.

Чтобы извлечь из науки о данных полезную информацию и ощутимые ощутимые преимущества, организациям необходимо начать подходить к науке о данных как к продукту, а не как к еще одному ИТ-проекту. Это очень поможет им в создании команд, которые действительно смогут сосредоточиться на бизнес-целях, а не на целях проекта.

Во второй части этой статьи я подробно расскажу о:

Анатомическое сходство между командами F1 и Data Science
Типичные «ориентированные на менталитет другого ИТ-проекта» группы специалистов по обработке и анализу данных во многих организациях сегодня

Formula Racing и наука о данных: часть 1