Новое соревнование в области науки о данных, где выгодно отличаться

Не каждый специалист по данным хочет играть в «Найди лучшую версию XGBoost».

Соревнования по науке о данных устарели. По мере появления области науки о данных знаковые конкурсы, такие как Netflix Prize и ранние конкурсы Kaggle, поощряли новые алгоритмы и творчество. Но теперь есть несколько алгоритмов, которые, как известно, лучше всего работают с определенными типами задач. Сегодня соревнования по науке о данных обычно сводятся к следующему: «бросить 1000 различных моделей XGBoost в решение задачи, провести перекрестную проверку и посмотреть, какая комбинация гиперпараметров + этапы предварительной обработки работает лучше всего». Процесс построения хорошей модели для любого набора данных стал монотонным и автоматическим. (Фактически, Google, Microsoft и другие автоматизировали это с помощью облачных сервисов, метко названных «AutoML», потому что эти инструменты не требуют понимания или творчества.)

Турнир по науке о данных Numerai - это другое дело. Numerai бесплатно раздает свою модель XGBoost с поиском по сетке и теперь ставит перед своим сообществом специалистов по науке о данных новую задачу: Сможете ли вы построить модель, отличную от той, которую представили все остальные? Проблема больше не в поиске лучшие параметры для XGBoost, но о построении оригинальной модели, которая еще не открыта.

Новый тип конкурса Data Science

В Турнире Numerai участникам будут платить не только за выступление, но и за оригинальность и неповторимость.

Турнир Numerai, если вы не знакомы с ним, представляет собой соревнование по науке о данных, в котором участникам предоставляется набор данных, который кажется простой задачей регрессии. На самом деле данные представляют собой обфусцированные данные фондового рынка, и участники прогнозируют будущие движения цен. Затем эти прогнозы объединяются метамоделью Numerai, и эта метамодель используется для управления капиталом хедж-фонда Numerai.

Сейчас я работаю в Numerai на полную ставку, после того как некоторое время до этого участвовал в турнире. Я всегда избегал других соревнований по науке о данных, потому что они казались мне утомительными - как и моя цель в соревновании заключалась в том, чтобы просто поместить проблему в мой тюнер гиперпараметров, а затем вложить в нее как можно больше вычислений. Но Numerai меня привлекла. Идея о том, что множество разных специалистов по данным представляют уникальные модели, чтобы помочь контролировать капитал в реальном хедж-фонде, невероятна. Затем, когда вы начинаете экспериментировать с данными, вы видите, что почти невозможно превзойти модель, которую они раздают бесплатно, и вы вынуждены глубже задуматься о том, как другим пользователям удается подняться в таблице лидеров. Несмотря на то, что он уже является уникальным, сейчас мы делаем турнир Numerai намного интереснее.

Раньше пользователям платили только в зависимости от того, насколько хорошо их прогнозы совпадают с тем, что на самом деле происходит на рынке. Если предсказания пользователя работают лучше, чем случайный случай, они вознаграждаются. Если они выступают хуже, их штрафуют. В результате многие пользователи представляют очень похожие модели одной и той же структуры, поскольку известно, что эта структура стабильно хорошо работает.

Как оказалось, Numerai не обязательно выиграет от получения 1000 заявок, которые предсказывают примерно одно и то же… только первые 1 или 2 из этих материалов действительно полезны, а остальные 998 могут быть избыточной информацией. Истинная сила Numerai заключается в наличии множества уникальных моделей, каждая из которых имеет разные сильные стороны. Затем эти уникальные модели становятся отдельными строительными блоками, и мы можем комбинировать их таким образом, чтобы создать невероятно мощный и уникальный портфель.

Мы знаем, что набор данных Numerai богат, и чтобы получить из него всю информацию, нам нужны пользователи, которые пробуют что-то новое. Пользователи уже используют подходы к моделированию наших данных, которые мы не знаем, как воссоздать. Мы хотим призвать всех продолжать разрабатывать подобные модели. Эти типы пользователей чрезвычайно важны для метамодели, но пока не получают пропорционального вознаграждения. Все скоро изменится.

Вот почему мы представили мета-модель "Вклад". Meta Model Contribution оценивает, насколько ценна каждая модель для метамодели, которая управляет хедж-фондом, чтобы эти пользователи могли получать оплату на основе их реальной добавленной стоимости.

Результатом является структура стимулов, которая напрямую связана с хедж-фондом. Переориентируя саму цель турнира, мы превращаем всех специалистов по обработке данных в сверхэффективных майнеров данных для хедж-фонда.

Новый процесс науки о данных

Специалисты по анализу данных знакомы с идеей наличия функции оптимизации. Это просто расчет метрики, которая измеряет производительность вашей модели, чтобы вы могли сравнивать свои различные попытки друг с другом объективным, поддающимся количественной оценке и потенциально автоматическим способом. В типичных соревнованиях по науке о данных производительность одномерна. Например: «Максимизируйте процент правильно классифицированных строк» или «Минимизируйте средний квадрат расстояния между каждым прогнозом и его соответствующей целью». В любом случае специалист по анализу данных попробует сотни или тысячи различных типов комбинаций моделей, параметров и шагов до или после обработки и увидит, какой из них дает лучший результат.

Новый процесс турнира Numerai потребует рассмотрения совершенно нового измерения - вместо того, чтобы рассматривать только производительность, специалисту по данным нужно будет учитывать независимость своих прогнозов по отношению к другим прогнозам пользователей. Интуитивно понятный способ определить, как количественно оценить хорошую модель в этом новом двумерном соревновании, может быть производительность * (1-correlation_with_all_other_models).

В зависимости от того, как Numerai награждает участников, уникальная модель с оценкой 0,01 может быть вознаграждена больше, чем стандартная модель с оценкой 0,03.

Таким образом, специалист по анализу данных может сначала захотеть создать несколько моделей, которые, по его мнению, являются наиболее распространенными. Затем она может написать функцию оптимизации, которая учитывает сходство прогнозов с этими моделями, а затем использовать эту новую метрику для итерации в своем собственном конвейере для создания прогнозов, которые она будет отправлять. При таком подходе она может построить модель, которая имеет большие шансы быть чрезвычайно уникальной, но при этом хорошо работать с набором данных и максимизировать ее выплаты.

Это грубый первый шаг к новому формату турниров. Мы ожидаем, что наше сообщество специалистов по анализу данных сможет довести это до предела, намного превышающего любые идеи, которые у нас есть в настоящее время.

Мета-модель Contribution направлена на вознаграждение пользователей, которые лучше всего могут найти эти уникальные и ценные подходы. Способ, которым мы можем это измерить, - это сначала построить метамодель из всех представленных пользователями материалов. Затем мы можем взять каждое представление и остаточно (или вычесть) прогнозы метамодели из представления. Все, что остается после остаточной метамодели, мы оцениваем по сравнению с истинными результатами фондового рынка. Это побуждает пользователей находить новую информацию в данных, которые удалось найти немногим.

Награды

Только за последние 3 месяца мы выплатили пользователям криптовалюту на сумму 1 100 000 долларов. Мы хотим, чтобы будущие выплаты распределялись между специалистами по обработке данных, которые больше всего помогают хедж-фонду.

Если вы специалист по обработке данных или специалист по машинному обучению, зайдите на сайт numer.ai, чтобы приступить к моделированию, управлению капиталом хедж-фонда и получению своей доли от турнирных выплат.

Новое соревнование в области науки о данных, где выгодно отличаться