В этой статье мы рассмотрим 7 важных проектов в области науки о данных, которые вы должны включить в свое портфолио, чтобы получить работу. Наличие этих 7 разных проектов покажет работодателям, что у вас есть разнообразие в вашем наборе инструментов для анализа данных, и поможет вам выделиться гораздо больше при подаче заявления на вакансии в области науки о данных.

Проект 1: Исследовательский анализ данных

Первым в списке идет проект исследовательского анализа данных (EDA). Это особенно полезно, если вы новичок в науке о данных, поскольку этот проект - идеальное вступление для начала изучения науки о данных. Самым большим преимуществом наличия тщательного проекта EDA является демонстрация того, что вы способны и лучше, но комфортно рассказываете историю с помощью данных. Нравится вам это или нет, но EDA - это большая часть науки о данных, поскольку все проекты в области науки о данных начинаются здесь. Создание и сбор данных, стандартизация конвейеров и разработка функций - вот что необходимо. Проект EDA позволит вам продемонстрировать все эти навыки.

Рекомендации: не используйте чистые данные. Найдите беспорядочные данные или, что еще лучше, соберите свои собственные, очищая Интернет или используя API для извлечения данных.

Проект 2: Классификация

Второй проект - классификационный. Проблема классификации может заключаться в предсказании бинарного или категориального результата. Типичный пример - знаменитый набор данных о титаническом выживании, цель которого - предсказать, выживет ли кто-нибудь на титаническом корабле или нет. К другим, более практическим примерам относятся: прогнозирование того, нажмет ли клиент на рекламу или выиграет ли спортивная команда чемпионат. Проблемы классификации - это один из основных элементов науки о данных, и специалисты по данным постоянно стремятся решать эти проблемы.

Рекомендации:

  • Используйте прогнозные вероятности, связанные с различными типами моделей, в частности с логистической регрессией, случайными лесами или XGBoost. С их помощью вы можете описать, насколько вы уверены в каждом прогнозе по каждой точке данных. Демонстрируя уверенность в прогнозе, вы выражаете работодателям, что понимаете ценность бизнеса.
  • В случае проблем с классификацией вы хотите четко указать свои критерии оценки. Попробуйте поэкспериментировать, оптимизируя: точность, точность, отзывчивость и даже оценку F1. Не забудьте также построить кривую ROC-AUC.
  • Старайтесь не использовать стандартизированные наборы данных, такие как титанический набор данных. Хотя они отлично подходят для практики и знакомства с концепциями, эти наборы данных в значительной степени изношены и уже очень хорошо документированы. Иначе говоря, они не идеальны для включения в ваше портфолио, поскольку все их сделали. Чтобы выделиться из толпы, попробуйте сделать что-нибудь более уникальное и придать ему индивидуальность.

Проект 3: регресс

Для третьего проекта попробуйте спрогнозировать постоянный результат; иначе известная как проблема регрессии. Типичный пример - это попытка предсказать цены на дома в определенном регионе или количество кликов по рекламе.

Рекомендации:

  • Опять же, очень важно объяснить, как вы оцениваете свой успех. Возможно, вы используете R-квадрат, среднеквадратичную ошибку (RMSE) или среднюю абсолютную ошибку (MAE). То, как вы оцениваете свою модель, напрямую связано с типом проблемы, которую вы пытаетесь решить.
  • Изучите различные модели и посмотрите, как каждая из них работает по выбранной вами метрике оценки.

Проект 4: кластеризация

Четвертый проект использует модели для группирования вещей. Это чаще называют «кластерным анализом». Иногда кластерный анализ связан с EDA, но он также особенно важен в сочетании с классификацией. Конкретные задачи кластерного анализа можно рассматривать как расширение EDA как немного более количественно ориентированный способ понимания взаимосвязей между точками данных. Анализ главных компонентов (PCA) - один из очень популярных методов кластеризации и уменьшения размерности, который также можно использовать для поиска взаимосвязей между объектами.

Примером кластеризации может быть попытка определить, какие квотербэки НФЛ разыгрывают похожие нарушения. Мы могли бы использовать кластерный анализ k-средних, основанный на производительности по паре различных ключевых статистических данных сыгранных игр, и сгруппировать квотербеков вместе в зависимости от того, на сколько групп мы хотим разделить лигу. Из этого мы можем увидеть, какие типы квотербеков играют хорошо в определенную погоду, например, что может принести дополнительную пользу. Кроме того, если в лигу приходит новый QB, мы можем определить, в какой кластер они попадают - что может быть интересно или ценно, когда мы пытаемся предсказать, насколько хорошо они будут играть в течение предстоящего сезона.

Проекты 5, 6 и 7: продвинутые проекты

Вот несколько популярных областей в отрасли: обработка естественного языка, компьютерное зрение и глубокое обучение.

Эти продвинутые проекты требуют гораздо больше усилий и навыков, но эти проекты также оказываются наиболее полезными, учитывая, что большинство промышленных проблем машинного обучения вращается вокруг них. Углубление в продвинутую тему может сделать вас более желанным для работодателей.

Рекомендации: сделайте эти проекты интересными и увлекательными. Покажите, что с помощью этих проектов вы можете внести свой вклад в удовлетворение потребностей реального мира.

Вам понравилось то, что вы прочитали? Подпишитесь на меня и поделитесь этой записью, чтобы помочь другим на их пути к науке о данных!

Давайте также подключимся к LinkedIn, я буду рад получить известие от вас!