История о том, как быстро проверить тренировки своей команды и при этом получить массу удовольствия.

Как пожарные оценивают свою готовность к чрезвычайной ситуации?
Как они гарантируют, что все знают, что делать в случае пожара?

Лучший способ проверить это — организовать маневры, похожие на реальную жизненную ситуацию.

Пожарные регулярно тренируются, чтобы проверить и улучшить свои процедуры. Они вводят новых членов, тестируют новое оборудование и укрепляют доверие друг к другу.
Ничто не может научить вас большему, чем реальная практика.

Как и пожарные, специалисты по обработке и анализу данных должны работать в команде. Это означает знакомить новых сотрудников с методами работы, использовать лучшие инструменты и методы, которые есть в их распоряжении, и узнавать навыки и личности друг друга.

В этой статье мы хотели бы описать, как мы организовали внутреннее соревнование, похожее на Kaggle, для тестирования и оценки наших процедур обработки данных.

Наш небольшой конкурс по науке о данных

Недавно мы организовали соревнование по машинному обучению в Ocado Technology, чтобы проверить, насколько хорошо подготовлены наши команды специалистов по данным для решения реальных проблем в условиях стресса. Мы пригласили специалистов по данным из наших пяти офисов (т. е. Кракова, Вроцлава, Софии, Барселоны и Хатфилда) в нашу штаб-квартиру в Великобритании. Мы заказали несколько пицц и начали хакдай.

Мы объединились в команды и приняли только одно правило: если два специалиста по данным работают в одной команде в реальной жизни, они не могут работать друг с другом во время хакдня. Мы хотели побудить людей познакомиться друг с другом.

Мы решили использовать соревнование в стиле Kaggle. Для людей, не знакомых с Kaggle, это соревнование, в котором бизнес-задачи, данные и метрики оценки определяются организаторами. Затем участники должны построить только соответствующие модели машинного обучения.

Наша проблема

Цель конкурса состояла в том, чтобы спрогнозировать общее время пребывания фургонов доставки Ocado у дверей.

Мы хотели знать, сколько времени потребуется, чтобы доставить продукты по тому или иному адресу. Ocado использует эти сроки доставки для более точного планирования маршрутов фургонов и, таким образом, открывает больше часовых временных интервалов для клиентов на выбор.

Как и в случае с Kaggle, мы подготовили несколько базовых показателей и таблицу лидеров, где показали лучшие решения; это дало участникам дополнительную мотивацию построить что-то лучше, чем все остальные. По окончании конкурса команды представили свои находки и модели. Мы многое узнали о наших данных, наших практиках и самих себе.

Это был отличный день, так что мы завершили свои дела обычной пинтой пива в пабе.

Пять уроков, извлеченных после конкурса Kaggle в Ocado

Вы можете легко применить эти уроки в своей команде по науке о данных или в отделе данных:

1. Хакерские дни — отличный шанс пообщаться

Нет ничего лучше соревнования, когда люди из разных офисов работают вместе и, следовательно, знакомятся друг с другом. Люди могут узнать о своих сильных и слабых сторонах. Мы обнаружили, что решение проблем является отличным упражнением для сплочения команды. После мероприятия мы создали опрос, который подтвердил, что людям действительно было очень весело.

2. Модели машинного обучения — это только верхушка айсберга

Как организатор, вы должны мудро выбирать проблему: ее не может быть слишком сложно решить за один день, но она все же должна быть сложной. Вы должны определить метрики оценки, собрать данные, разделить их на обучающие и тестовые наборы, записать правила и т. д. Во время своей презентации на NIPS 2016 Бен Хамнер (технический директор Kaggle) подтвердил, что его сотрудники тратят сотни часов на правильную настройку до соревнований за кулисами. Во всех проектах по науке о данных на моделирование уходит всего 5–10% времени.

3. Наука о данных — это все об итерациях

Во время соревнований некоторые команды слишком усложняли свои модели: пытались проверить слишком много вещей одновременно и переоценивали то, что реально сделать за один день. В конце концов, действительно важны только работающие модели (у всех команд было много идей о том, что они хотели бы проверить, но не хватило времени).

В реальной жизни это работает примерно так же. Об этом мы тоже писали здесь. Практика и подобные соревнования могут показать вашей команде преимущества итеративной работы.

4. Знание предметной области может иметь решающее значение

Вместо того, чтобы пробовать более сложную модель, лучше сначала вложить энергию в понимание метрик, анализ данных, проверку распределения и выбросов. Команда, выигравшая конкурс, использовала свои знания о бизнесе Ocado для улучшения своей модели. В реальной жизни очень часто необходимо знание предметной области.

5. Улучшите свои инженерные методы

Python и R — два самых популярных языка программирования для специалистов по данным. Чтобы работать эффективно, вам нужно очень хорошо знать свои инструменты, включая языки программирования и фреймворки. Если вы хотите быстро проверить гипотезы или добавить новые переменные, вас не заблокируют технологии.
Этот хакерский день показал нам, что нам нужно усерднее работать над унификацией нашего стека технологий и корректировкой процесса индукции, чтобы каждый мог легко получить данные, сделать анализ или модель и поделиться своими результатами с остальной частью команды.

Как мы видели, однодневное мероприятие hackday может обеспечить очень полезную проверку здоровья вашей команды. Вы можете проверить, как люди организуют свою работу, какие инструменты они используют и как они работают над решением проблем. Но хакерские дни могут быть полезны не только командам, занимающимся наукой о данных или инженерами; управленческие команды могут использовать их для определения бюджета на обучение, инвестиций в инструменты и технологии или для формирования новых команд. Поэтому мы настоятельно рекомендуем вам как можно шире привлекать к участию в этих мероприятиях своих менеджеров или руководителей групп.

Попробуйте провести подобные конкурсы в своей компании. Мы заверяем вас, что вы узнаете гораздо больше, чем ожидаете, и получите массу удовольствия.

Авторы: Лукас Инниг, Марчин Дружковски