5 проектов по науке о данных для начинающих с исходными кодами

Страны постепенно открываются маленькими шажками, а до «карантина» остается еще несколько недель, и выделите это время на самоизоляцию, чтобы освоить новые навыки, почитать книги и улучшить себя.

Пытались создать несколько проектов по науке о данных, чтобы улучшить свои навыки, но испугались размера кода и количества используемых концепций? Вы не знаете, с чего начать проект? Не кажется ли это слишком недостижимым, и не разрушило ли оно ваши мечты стать специалистом по данным? Что ж, я собрал для вас несколько проектов по науке о данных с исходным кодом, чтобы вы действительно могли участвовать в проектах по науке о данных в реальном времени. Это поможет повысить уверенность в себе, а также покажет интервьюеру, что вы серьезно относитесь к науке о данных.

С экспоненциальным всплеском ИИ компании с нетерпением ждут найма квалифицированных специалистов по данным для развития своего бизнеса. Помимо получения сертификата по науке о данных, всегда полезно иметь в своем резюме пару проектов по науке о данных. Теоретических знаний никогда не бывает достаточно.

1. Обнаружение фейковых новостей

Поднимите свою карьеру на новый уровень, работая над проектом Data Science для начинающих — Обнаружение поддельных новостей с помощью Python.

Король желтой журналистики, фейковые новости — это ложная информация и мистификации, распространяемые через социальные сети и другие онлайн-медиа для достижения политической цели. В этой идее проекта по науке о данных мы будем использовать Python для создания модели, которая может точно определить, являются ли новости реальными или фальшивыми. Мы создадим TfidfVectorizer и используем PassiveAggressiveClassifier для классификации новостей на «настоящие» и «поддельные». Мы будем использовать набор данных размером 7796×4 и выполнять все в Jupyter Lab.

Язык: Питон

Набор данных/пакет: news.csv

2. Исследовательский анализ данных

Исследовательский анализ данных (EDA) фактически является первым шагом в процессе анализа данных. Здесь вы осмысливаете имеющиеся у вас данные, выясняете, какие вопросы вы хотите задать, как их сформулировать, лучше всего манипулируете ими, чтобы получить необходимые ответы.

EDA предоставляет широкий обзор закономерностей, тенденций, выбросов, неожиданных результатов и т. д. в существующих данных с использованием визуальных и количественных методов. Существует множество проектов, которые можно реализовать с помощью исследовательского анализа данных. Здесь я перечислил для справки или в качестве хорошей отправной точки.

Примеры:

Глобальные показатели самоубийств (набор данных)
Летние олимпийские модели (набор данных)
Доклад о мировом счастье (набор данных)
Факты о питании для меню McDonald’s (набор данных)

3. Анализ настроений

Проверьте полную реализацию проекта Data Science Project с исходным кодом — Проект анализа тональности в R

Анализ настроений — это акт анализа слов для определения настроений и мнений, которые могут быть положительными или отрицательными по полярности. Это тип классификации, в котором классы могут быть бинарными (положительные и отрицательные) или множественными (счастливыми, злыми, грустными, испытывающими отвращение и т. д.). Мы реализуем этот проект по науке о данных на языке R и будем использовать набор данных пакета «janeaustenR». Мы будем использовать словари общего назначения, такие как AFINN, bing и loughran, выполним внутреннее соединение и, в конце концов, построим облако слов для отображения результата.

Язык: Р

Набор данных/пакет: janeaustenR

4. Анализ качества вина

Это один из самых популярных наборов данных среди начинающих специалистов по науке о данных. Он разделен на 2 набора данных. Вы можете выполнять как задачи регрессии, так и задачи классификации этих данных. Это проверит ваше понимание в разных областях — обнаружение выбросов, выбор функций и несбалансированные данные. В этом наборе данных 4898 строк и 12 столбцов.

Задача: предсказать качество вина.

Старт: Получить данные | Учебное пособие: Попасть сюда

5. Определение цвета с помощью Python

Создайте приложение для определения цветов с помощью проекта Beginner Data Science Project — Color Detection with OpenCV

Сколько раз вам приходило в голову, что даже увидев, вы не помните название цвета? Может быть 16 миллионов цветов, основанных на различных цветовых значениях RGB, но мы помним лишь некоторые из них. Итак, в этом проекте мы собираемся создать интерактивное приложение, которое будет определять выбранный цвет на любом изображении. Для реализации этого нам понадобятся размеченные данные всех известных цветов, после чего мы рассчитаем, какой цвет больше всего напоминает выбранное значение цвета.

Язык: Питон

Набор данных: названия цветов Codebrainz

Спасибо за чтение! Надеюсь, вам понравилась статья. Дайте мне знать, какие проекты вы с нетерпением ждете изучения или выполнения зимой в своем путешествии по науке о данных?

Рад заработать бесконечные очки кармы от вас, ребята.