The Economist заявил, что самым ценным ресурсом мира является уже не нефть, а ДАННЫЕ. Объем данных, генерируемых и собираемых с помощью таких источников, как датчики и действия пользователей в Интернете, породил новую цифровую экономику. По мере того как мир продолжает становиться все более ориентированным на данные с появлением новых технологий, профессия специалистов по данным продолжает становиться все более требовательной. Наука о данных, названная Harvard Business Review «самой сексуальной работой 21 века», оказалась сегодня самой важной и востребованной должностью для большинства ведущих компаний. Сочетание факторов, включая бум сбора данных, разработку алгоритмов для моделирования этих данных и все более дешевую вычислительную мощность, позволило специалистам по данным сегодня стать неотъемлемой частью организаций.

В этом посте представлен список из шести проектов по науке о данных, которые охватывают различные аспекты, связанные с наукой о данных. Независимо от того, закончили ли вы курс по науке о данных или только начинаете заниматься наукой о данных, реализация таких проектов обеспечивает глубокое понимание и опыт работы с основными концепциями, необходимыми в науке о данных.

Проект 1: Обнаружение мошенничества с кредитными картами

Роль кредитных карт как метода транзакций с годами приобрела большую популярность, поскольку мир стремится к безналичному расчету. Однако также важно учитывать, что мошенничество с кредитными картами считается наиболее распространенным видом мошенничества с кражей личных данных. Одна из основных задач, которую могут решить алгоритмы машинного обучения, - это классификация. Каждая транзакция по кредитной карте приводит к генерации некоторых данных, которые могут использоваться алгоритмами машинного обучения для разработки классификатора. Использование такого классификатора в режиме реального времени может помочь обнаружить мошеннические транзакции почти сразу, что приведет к экономии не только времени, но и денег.

Проект 2: Прогноз цен на жилье

Наука о данных имеет дело с двумя видами статистики - описательной статистикой и статистикой вывода. Логическая статистика помогает прогнозировать результаты на основе невидимых данных с использованием ранее известных данных. Набор данных о жилье в Бостоне содержит такие данные, которые можно использовать для прогнозирования средней стоимости домов, занимаемых владельцами, с помощью алгоритмов машинного обучения. Алгоритмы машинного обучения, в частности алгоритмы на основе регрессии, могут извлекать закономерности из данных и использовать их для обработки новой информации и прогнозирования реального значения. Этот набор данных может помочь изучить и понять различные алгоритмы, основанные на регрессии.

Проект 3: сегментация клиентов

Сегментация клиентов - это объединение рыночных клиентов с похожими характеристиками в коллекции. Сегментация клиентов по их характеристикам может быть огромным преимуществом для разработки уникально привлекательных продуктов. Продвижение продуктов определенному сегменту клиентов может быть более выгодным, чем реклама менее заинтересованным клиентам. Прогнозирование структуры расходов клиентов в соответствии с кластером, в который они классифицируются, может иметь большое значение для бизнеса. Алгоритмы кластеризации в машинном обучении помогают в кластеризации, т. Е. Группировании похожих точек данных. Набор данных для сегментации клиентов содержит такие атрибуты, как пол, возраст, годовой доход и оценка расходов, которые могут помочь сгруппировать клиентов, которые разделяют общий образец. Использование науки о данных для кластеризации очень полезно для прогнозного анализа.

Проект 4: Определение пола и прогнозирование возраста

Важной формой данных, с которой, возможно, придется работать специалистам по данным, являются изображения, особенно изображения людей. Развитие алгоритмов глубокого обучения и алгоритмов компьютерного зрения позволило специалистам по данным иметь возможность обнаруживать и извлекать черты лица человека из изображений. Модели глубокого обучения, включающие нейронные сети, содержат несколько сверточных слоев, которые упрощают извлечение информации из изображений. Комбинация сверточной нейронной сети и классификатора может помочь извлечь данные о лицах из изображений и предсказать их возраст и пол. Следовательно, разработка этого проекта может стать хорошим введением в CNN и методы обработки изображений.

Проект 5: Система рекомендаций фильмов

Рекомендации - это еще один тип прогнозов, который специалист по данным теперь может разработать, используя данные. Механизмы рекомендаций чаще всего используются на сайтах электронной коммерции и имеют огромную ценность для бизнеса. Сайты потокового контента, такие как Netflix, могут предлагать фильмы с использованием истории просмотров предыдущих клиентов и шаблонов других аналогичных пользователей. Это соответствует двум наиболее распространенным типам рекомендательных систем - контентной фильтрации и совместной фильтрации. Разработка этого проекта включает создание механизма рекомендаций, который рекомендует другие фильмы на основе определенного фильма.

Проект 6: Обнаружение саркастических новостей

Специалисты по обработке данных используют инструменты машинного обучения и глубокого обучения, такие как обработка естественного языка, чтобы машины могли определять настроения на основе текстовых данных. Одно из таких настроений - сарказм, который, по общему признанию, трудно обнаружить даже людям. Такие сайты, как The Onion, публикуют сатирические новостные статьи, которые многие люди принимают за настоящие заголовки, что приводит к дезинформации. Этот проект включает в себя разработку модели классификации для классификации заголовка новости как саркастического или несаркастического. Построение такой модели познакомит с важными концепциями НЛП, такими как встраивание слов и LSTM в нейронных сетях.

Надеюсь, этот пост содержит несколько полезных идей для начала работы с проектами в области науки о данных. Вскоре мы загрузим подробные сообщения о реализации этих шести проектов и, надеюсь, проясним эти основные концепции Data Science. FavTutor всегда готов предоставить вам помощь от опытных репетиторов по науке о данных, которые доступны 24/7.

Первоначально опубликовано на https://favtutor.com.