Оглядываясь назад на конкурс Atrae и bitgrit «#SwipeToSuccess».

В прошлом году мы провели конкурс «#SwipeToSuccess» в сотрудничестве с Atrae, когда они представили свое сетевое приложение «Yenta» на индийском рынке. Специалисты по данным со всего мира боролись с этим, пытаясь придумать алгоритмы, которые улучшили бы точность совпадений Yenta.

В этой статье мы собираемся поразмыслить о том, как проходила конкуренция, и вникнем в некоторые детали процесса, надеясь, что предоставим вам ценную информацию.

Table of contents:
- What are the advantages of data science competitions? 
- How is a competition organised?
- Closing notes by Mr. Sugiyama. (Data scientist at Atrae)

В чем преимущества соревнований DS?

По сравнению с традиционной моделью передачи решений ИИ на аутсорсинг горстке инженеров, проведение соревнований по ИИ дает множество преимуществ.

Во-первых, они позволяют компаниям, у которых отсутствуют необходимые ресурсы и внутренние таланты, в полной мере использовать свои данные и эффективно улучшать свой бизнес. Сообщество, состоящее из более чем 30 000 талантливых специалистов по данным со всего мира, активно конкурирует на платформе bitgrit нашей фирмы, создавая ряд уникальных алгоритмов для получения моделей высокой точности и предлагая экспертные технические решения.

С появлением больших данных, ведущих к высококонкурентному рынку, точность этих моделей искусственного интеллекта может стать решающим фактором в определении выживания и прогресса бизнеса.

Кроме того, компании, надеющиеся на расширение и выход на мировой рынок со своими услугами и продуктами, могут последовать примеру Atrae, рекламируя свой бренд, устраивая соревнования и твердо ставя свою компанию в область науки о данных.

Цель #SwipeToSuccess

Целью этого конкурса было улучшение алгоритма искусственного интеллекта для приложения бизнес-сети «Yenta», которое выводилось на рынок Индии. Конкурсантам на битгрите были предоставлены реальные данные, полученные от самого Atrae, для работы над ними.

В результате опытные специалисты по данным со всего мира, включая Японию, Индию и Америку, боролись за первое место, и разработка алгоритма шла быстро. Как видите, эти соревнования предоставляют уникальную возможность использовать огромный запас коллективных знаний и навыков, чтобы помочь разработать технически сложные и точные модели данных.

Соревнования заключаются не только в том, чтобы побудить внештатных специалистов по обработке данных участвовать в соревнованиях; это также может быть отличным способом привлечь таланты в компании посредством собеседований / контактов с победителями после окончания конкурса.

Как организован конкурс?

Этот конкурс проходил с 24 августа 2020 года по 31 октября того же года.

Мы обсудили детали конкурса с внутренней командой специалистов по обработке данных Atrae, выяснив, какие данные мы можем использовать и какие проблемы могут возникнуть у пользователей Bitgrit. После долгих раздумий мы решили посмотреть, могут ли участники улучшить алгоритм сопоставления, который прогнозирует совместимость между пользователями Yenta.

Определение цели

Мы искали алгоритм, который мог бы первым; предсказать, совпадут ли два пользователя или нет, и второй; предсказать, согласятся ли они встретиться. Мы решили, что лучший способ оценить этот второй пункт - это проверить, оставили ли они отзыв после сопоставления.

Мы разделили совместимость пользователей на 4 случая:

(0) - Пользователь A и пользователь B не совпадают.
(1) - Пользователь A и пользователь B совпадают, но не встречаются.
(2) - Пользователи совпадают, но оставили отрицательные отзывы.
(3) - Пользователи сопоставили и оставили положительные отзывы.

После набора задач для конкурса мы подготовили набор данных, используя следующие процессы.

Подготовка набора данных

Во-первых, мы разделили данные пользователей на два типа: личные данные (образование, навыки, информация профиля и т. Д.) И общие данные (прошлые пролистывания, отзывы и т. Д.).

Затем мы приняли во внимание конфиденциальность и полезность данных, опустив всю ненужную / конфиденциальную информацию. Наконец, мы проверили качество набора данных, пропустив его через наши собственные модели алгоритмов совместимости пользователей.

Участникам было важно выбрать из файлов данных то, что им нужно, что само по себе было сложной задачей, поскольку для использования было доступно огромное количество различных типов данных.

Позже мы обнаружили, что всех победителей объединяло то, что они тратили много времени на «разработку функций», прежде чем приступить к работе над самим алгоритмом. Участники должны были придумать творческие и эффективные функции (переменные), чтобы улучшить свои алгоритмы и создать модели более высокого качества.

Результат конкурса

Спустя 2 месяца конкурс подошел к концу, и призовые деньги были розданы четырем лучшим участникам. Нихил, аналитик данных из Индии, занял первое место с результатом 87,0207%.

Хотя все победители создавали свои решения с использованием LightGBM, наибольшее внимание уделялось этапу разработки функций в процессе создания алгоритмов.

Обладатель 1-го места Нихил объяснил, что «я потратил много времени, пробуя всевозможные комбинации функций, чтобы разобраться с данными, поскольку было очень много различий».

Он также добавил, что почувствовал разницу в возрасте пользователей и количество смахиваний вправо, которые больше всего влияют на предсказуемость результатов. В интервью после соревнований Нихил также любезно добавил: «Я рад, что смог принести пользу Атраэ и пользователям Yenta».

Точно так же Сенькин сказал нам, что в отличие от конкурсов, проводимых другими компаниями, занимающимися ИИ, которые предоставляли только базовые функции графиков, конкурс #SwipeToSuccess предоставил невероятно находчивый набор данных, и он смог многому из них научиться.

Организованные таким образом соревнования - прекрасная возможность получить идеи от специалистов по данным со всего мира и помочь в разработке высокопроизводительных алгоритмов, как показано в этом кратком изложении.

Мы хотели бы закончить статью, включив некоторые заключительные мысли г-на Сугиямы, который работает специалистом по анализу данных в Atrae.

Заключительные примечания г-на Сугиямы. (Atrae DS)

Все модели, получившие высокие оценки, были поистине потрясающими. Результаты показали, что некоторые специалисты по обработке данных мирового уровня соревнуются, подталкивают себя и проходят через множество проб и ошибок, чтобы усовершенствовать свои алгоритмы.

Мы получили широкий спектр моделей, от тех, которые в основном ориентированы на деревья решений / проектирование функций с градиентным усилением, до моделей, включающих GCN. Судя по уровню и разнообразию полученных нами моделей, я чувствую, что мы не смогли бы добиться таких результатов в одиночку.

Интервью с победителями также были невероятно познавательными. Хотя многие считают, что эти соревнования - это игра с небольшим повышением точности, во время разговора с этими удивительно одаренными специалистами по обработке данных я почувствовал, что существует явная страсть к данным и стремление решать сложные проблемы, которые стали возможными. через упорный труд и бесчисленное количество проб и ошибок.

Похоже, что ни один из победителей не был обеспокоен призовыми деньгами, для них это было связано с их анализом, который вместо этого принесет ощутимую реальную ценность для общества. Я ушел, зная, что лучшие из нас - это люди с чрезвычайно целеустремленным мышлением и необходимостью создавать ценности.

В заключение я хотел бы поблагодарить DataGateway за безупречное руководство этим соревнованием. Мы смогли подробно обсудить наши ожидания и цели в отношении конкурса и пришли к тому, что нас всех устроило.

Хотя мы создали систему классификации для оценки результатов, мы были очень удивлены тем, насколько точно она предсказывала ранжирование участников (где модели, способные выполнить (0) или (1), оказались бы на более высоком уровне, а те, которые справились ( 2) или (3) определят первые места).

Мы также очень благодарны им за то, что они провели сортировку и предварительную обработку данных без каких-либо утечек и проблем. Сделать все это самому было бы чрезвычайно сложно, и мы могли полностью полагаться на них на протяжении всего нашего сотрудничества.

Сейчас мы проводим аналогичный конкурс → Viral Tweets Prediction Challenge

Задача этого конкурса - создать алгоритм для прогнозирования уровня виральности твитов.

Последнюю информацию можно найти на нашем сайте.

(Для запросов)

Название компании: DataGateway
Адрес: Tokyo, Meguro, Kami Meguro, 3–4–3, Koganei Building 4F.
Президент компании: Тетсуро Масунага
Деловая информация: разработка и предоставление алгоритмов искусственного интеллекта, а также бизнес-консалтинг в области науки о данных.