Основные идеи науки о данных (и с чего начать)

Capstones - это отдельные проекты, предназначенные для интеграции, синтеза и демонстрации всех ваших знаний в области науки о данных в многогранной форме. Проекты Capstone демонстрируют вашу готовность использовать науку о данных в реальной жизни, и в идеале это то, что вы можете добавить в свое резюме, показать работодателям или даже использовать для начала карьеры.

Я считаю, что главные идеи науки о данных похожи на щенков: вы хотите их всех, но можете оставить только одного. Ниже приведен список некоторых моих идей и отправных точек.

Идея №1: анализ питания по заказам Instacart

В 2017 году Instacart выпустил набор данных из более чем 3 миллионов заказов на продукты от более чем 200 000 пользователей в качестве соревнования Kaggle. С таким сочным набором данных сразу приходит в голову несколько идей:

Предсказать, какие продукты пользователи будут заказывать снова (это было целью задачи Kaggle).
Создайте модель для хранения в магазине, чтобы не было нехватки товаров, но не было потрачено впустую места или денег при заказе.
Прогнозируйте состояние здоровья пользователя на основе содержимого заказа.
Создайте систему рекомендаций для более здоровых альтернатив заказа.

Первое и второе можно выполнить с уже имеющимися у вас данными, что приятно.

Третий вариант был моим личным выбором: я использовал базу данных о составе пищевых продуктов Министерства сельского хозяйства США, чтобы искать продукты и составлять их разбивку по питательности (кстати, у них есть API). Но это также создало множество препятствий:

- Пользователи не едят все, что заказывают (например, кошачий корм, мыло, туалетную бумагу). Для этого потребуется много чистки и подгонки.

- Пользователи делают заказы не только для себя (например, компании, дни рождения, семьи).

- Пользователи делают заказы в разные сроки (например, раз в неделю, раз в две недели, раз в месяц).

- Такие предметы, как деликатесы, могут не иметь записей в базе данных USDA.

Четвертый также будет использовать базу данных USDA, но не потребует никакой пользовательской информации или возни с временными рядами.

I dea # 2: Прогнозирование солнечной энергии по спутниковым изображениям / погодным данным

Одна из серьезных проблем, связанных с массовым внедрением солнечной энергии, заключается в том, что в отличие от других источников энергии (гидроэнергетика, нефть, атомная энергия) вы не можете контролировать, как долго светит солнце. Завышение этой суммы означает убытки для производителей и инвесторов и простои для пользователей. Недооценка означает меньшие шансы на принятие решения заранее. Похоже, работа для ... машинного обучения!

На NREL можно найти множество наборов данных, однако они относятся к разным годам и в разных местах с ограничениями на то, сколько вы можете скачать за один раз. У них есть API, что полезно.

SolarAnywhere имеет академическую лицензию, позволяющую искать в любом месте (но только на 2013 год). У них тоже есть API.

Также просмотрщик данных NREL NSRDB.

Я могу придумать три непосредственных подхода:

- Использование предыдущей солнечной мощности для прогнозирования текущей солнечной мощности (временные ряды или RNN).

- Использование наборов данных о погоде

- Использование наборов данных спутниковой съемки

По этой последней теме опубликовано множество научных статей (быстрый поиск в Google Scholar дает около 30 000 результатов), но не так много общедоступных наборов данных спутниковых временных рядов.

Идея №3: обнаружение фейковых новостей

Это горячо. Не вдаваясь в полную тираду, фейковые новости явно вредны для демократии и психической устойчивости личности.

Итак, как точно определить, что фальшивка, а что правда? Вот несколько выводов на эту тему как на проблему науки о данных:

1. Вызов фейковых новостей

Это лучший вызов по этой теме с участием организаторов, консультантов и волонтеров из академических кругов, сообществ по машинному обучению и проверке фактов. Включает репозитории GitHub с выигравшими работами. Загляните на страницу конкурса на Codalab.

2. Snopes Junk News

Отправная точка для хорошо проверенных фальшивых новостей и реальных событий.

3. Знакомство с фейковыми новостями - набор данных Kaggle

Коллекция из почти 13 000 предметов с 244 веб-сайтов с тегом BS из расширения BS Detector. BS Detector основан на проекте Open Sources, который классифицирует предвзятые и поддельные веб-сайты.

Где найти другие идеи

Никогда не прекращайте поиски! Вот несколько способов получить больше потенциальных клиентов в виде идей проектов или наборов данных для использования.

1. Научные труды

2. Конкурсы Kaggle

3. Наборы данных Kaggle

4. reddit.com/r/datasets

5. Замечательные общедоступные наборы данных на GitHub Repo

6. Наборы данных Google

О чем я могу написать, чтобы помочь вам добиться успеха в науке о данных или трейдинге? Расскажите об этом здесь: https://bit.ly/3mStNJG

Основные идеи науки о данных (и с чего начать)

Идея №1: анализ питания по заказам Instacart

I dea # 2: Прогнозирование солнечной энергии по спутниковым изображениям / погодным данным

Идея №3: обнаружение фейковых новостей

Где найти другие идеи

Вопросы по теме