Лучший способ изучить науку о данных - это практиковаться с реальными формулировками проблем и данными. Самостоятельное изучение данных и тестирование некоторых простых моделей может оказаться сложной задачей - поэтому мы недавно провели онлайн-обзор нашего последнего конкурса #SwipeToSuccess, чтобы помочь членам нашего сообщества узнать:
⚡️ Как разработать и обучить модель машинного обучения
⚡️ Как улучшить свой результат и производительность алгоритма, используя больше данных
⚡️ Как принять участие в конкурсе Data Science и представить свое решение
Избавьтесь от проблем с сетью
Работа в сети может быть неприятной - найти людей, чьи цели и потребности совпадают с вашими, может оказаться серьезной проблемой.
Вот почему стартап из Японии Atrae, Inc. создал приложение на базе искусственного интеллекта под названием yenta, в котором вы проводите пальцем вправо по пользователям, чьи цели и интересы совпадают с вашими. Если другой пользователь также заинтересован в общении с вами, он также проведет пальцем вправо, и вы сможете связаться с ним через сообщения или встречу. bitgrit и Atrae объединились для запуска конкурса #SwipeToSuccess и поставили перед аналитиками данных задачу оптимизировать алгоритм сопоставления профилей приложения, прогнозируя совместимость его пользователей.
Данные
Для этого конкурса мы даем вам доступ к реальному набору данных, который обычно не является широко доступным. Набор данных включает в себя различные значения (которые анонимны для защиты конфиденциальности пользователей), такие как:
- Уровень образования пользователей
- Рабочий стаж
- Самовведения
- Профессиональные навыки
- Причины, по которым они скачали приложение
- Прошлые взаимодействия пользователя с пользователем, включая пролистывание и обзоры
Работа с данными
Специалист по данным Хорхе Кинтерос провел этот онлайн-семинар в прошлый понедельник и объяснил, как числовые идентификаторы заменяют указанные выше пользовательские данные для анонимности данных.
Для решения проблем классификации, подобных той, с которой мы имеем дело, Хорхе предложил использовать алгоритм под названием Случайный лес. Это простой в использовании, но мощный алгоритм, который позволяет запускать быстрые тесты с данными и обучать вашу модель. Случайный лес - это совокупность множества деревьев решений с различными структурами, используемых для голосования и составления прогнозов.
Ваши входные данные должны выглядеть так:
- Вы берете пару идентификаторов пользователей из обучающей выборки.
- Для каждого идентификатора пользователя сгруппируйте вместе атрибуты пользователя.
- Объедините эти атрибуты с эквивалентными атрибутами другого пользователя, чтобы сформировать вектор ввода (X).
- Целевое значение (y) будет баллом между этими пользователями в указанном порядке.
Обучите свою модель тысячами этих примеров, чтобы получить модель, способную делать прогнозы на основе тестовых данных.
📌 Полезные ресурсы
✔️ Простое трехэтапное руководство, которое поможет вам приступить к работе над своим первым проектом в области искусственного интеллекта.
✔️ Статья, охватывающая все основы знания Python
✔️ Отличный ресурс по базовой визуализации данных в Python
✔️ Прочтите, как работает алгоритм случайного леса
✔️ Глава о векторизации текстовых данных
✔️ Наш блог об алгоритме случайный лес, одном из наиболее широко используемых методов машинного обучения в отрасли.
✔️ Запись мастер-класса с пошаговым руководством по кодированию:
Как принять участие в конкурсе и представить свое решение
- Перейдите на http://www.bitgrit.net/competition/4
- Зарегистрируйтесь и нажмите "Участвовать"
- Примите Соглашение о неразглашении информации (NDA)
- Обновите страницу и перейдите в раздел Ресурсы.
- Загрузите данные, а затем проверьте Правила
Конкурс #SwipeToSuccess с общим призовым фондом в 10 000 долларов продлится до 31 октября 2020 г., 18:30 по московскому времени. УНИВЕРСАЛЬНОЕ ГЛОБАЛЬНОЕ ВРЕМЯ. Запишитесь на конкурс здесь! 🏆
Удачи всем участникам и огромное спасибо нашему замечательному соведущему Le Wagon за помощь в проведении этого мастер-класса!
Примечание: этот конкурс закрыт. Вы можете найти список других соревнований bitgrit по искусственному интеллекту на нашем сайте здесь. Мы также проводим мероприятия, посвященные науке о данных и блокчейну, на нашей странице Meetup здесь.