Лучший способ изучить науку о данных - это практиковаться с реальными формулировками проблем и данными. Самостоятельное изучение данных и тестирование некоторых простых моделей может оказаться сложной задачей - поэтому мы недавно провели онлайн-обзор нашего последнего конкурса #SwipeToSuccess, чтобы помочь членам нашего сообщества узнать:

⚡️ Как разработать и обучить модель машинного обучения

⚡️ Как улучшить свой результат и производительность алгоритма, используя больше данных

⚡️ Как принять участие в конкурсе Data Science и представить свое решение

Избавьтесь от проблем с сетью

Работа в сети может быть неприятной - найти людей, чьи цели и потребности совпадают с вашими, может оказаться серьезной проблемой.

Вот почему стартап из Японии Atrae, Inc. создал приложение на базе искусственного интеллекта под названием yenta, в котором вы проводите пальцем вправо по пользователям, чьи цели и интересы совпадают с вашими. Если другой пользователь также заинтересован в общении с вами, он также проведет пальцем вправо, и вы сможете связаться с ним через сообщения или встречу. bitgrit и Atrae объединились для запуска конкурса #SwipeToSuccess и поставили перед аналитиками данных задачу оптимизировать алгоритм сопоставления профилей приложения, прогнозируя совместимость его пользователей.

Данные

Для этого конкурса мы даем вам доступ к реальному набору данных, который обычно не является широко доступным. Набор данных включает в себя различные значения (которые анонимны для защиты конфиденциальности пользователей), такие как:

  • Уровень образования пользователей
  • Рабочий стаж
  • Самовведения
  • Профессиональные навыки
  • Причины, по которым они скачали приложение
  • Прошлые взаимодействия пользователя с пользователем, включая пролистывание и обзоры

Работа с данными

Специалист по данным Хорхе Кинтерос провел этот онлайн-семинар в прошлый понедельник и объяснил, как числовые идентификаторы заменяют указанные выше пользовательские данные для анонимности данных.

Для решения проблем классификации, подобных той, с которой мы имеем дело, Хорхе предложил использовать алгоритм под названием Случайный лес. Это простой в использовании, но мощный алгоритм, который позволяет запускать быстрые тесты с данными и обучать вашу модель. Случайный лес - это совокупность множества деревьев решений с различными структурами, используемых для голосования и составления прогнозов.

Ваши входные данные должны выглядеть так:

  • Вы берете пару идентификаторов пользователей из обучающей выборки.
  • Для каждого идентификатора пользователя сгруппируйте вместе атрибуты пользователя.
  • Объедините эти атрибуты с эквивалентными атрибутами другого пользователя, чтобы сформировать вектор ввода (X).
  • Целевое значение (y) будет баллом между этими пользователями в указанном порядке.

Обучите свою модель тысячами этих примеров, чтобы получить модель, способную делать прогнозы на основе тестовых данных.

📌 Полезные ресурсы

✔️ Простое трехэтапное руководство, которое поможет вам приступить к работе над своим первым проектом в области искусственного интеллекта.

✔️ Статья, охватывающая все основы знания Python

✔️ Отличный ресурс по базовой визуализации данных в Python

✔️ Прочтите, как работает алгоритм случайного леса

✔️ Глава о векторизации текстовых данных

✔️ Наш блог об алгоритме случайный лес, одном из наиболее широко используемых методов машинного обучения в отрасли.

✔️ Запись мастер-класса с пошаговым руководством по кодированию:

Как принять участие в конкурсе и представить свое решение

  • Перейдите на http://www.bitgrit.net/competition/4
  • Зарегистрируйтесь и нажмите "Участвовать"
  • Примите Соглашение о неразглашении информации (NDA)
  • Обновите страницу и перейдите в раздел Ресурсы.
  • Загрузите данные, а затем проверьте Правила

Конкурс #SwipeToSuccess с общим призовым фондом в 10 000 долларов продлится до 31 октября 2020 г., 18:30 по московскому времени. УНИВЕРСАЛЬНОЕ ГЛОБАЛЬНОЕ ВРЕМЯ. Запишитесь на конкурс здесь! 🏆

Удачи всем участникам и огромное спасибо нашему замечательному соведущему Le Wagon за помощь в проведении этого мастер-класса!

Примечание: этот конкурс закрыт. Вы можете найти список других соревнований bitgrit по искусственному интеллекту на нашем сайте здесь. Мы также проводим мероприятия, посвященные науке о данных и блокчейну, на нашей странице Meetup здесь.