Capstones - это отдельные проекты, предназначенные для интеграции, синтеза и демонстрации всех ваших знаний в области науки о данных в многогранной форме. Проекты Capstone демонстрируют вашу готовность использовать науку о данных в реальной жизни, и в идеале это то, что вы можете добавить в свое резюме, показать работодателям или даже использовать для начала карьеры.
Я считаю, что главные идеи науки о данных похожи на щенков: вы хотите их всех, но можете оставить только одного. Ниже приведен список некоторых моих идей и отправных точек.
Идея №1: анализ питания по заказам Instacart
В 2017 году Instacart выпустил набор данных из более чем 3 миллионов заказов на продукты от более чем 200 000 пользователей в качестве соревнования Kaggle. С таким сочным набором данных сразу приходит в голову несколько идей:
- Предсказать, какие продукты пользователи будут заказывать снова (это было целью задачи Kaggle).
- Создайте модель для хранения в магазине, чтобы не было нехватки товаров, но не было потрачено впустую места или денег при заказе.
- Прогнозируйте состояние здоровья пользователя на основе содержимого заказа.
- Создайте систему рекомендаций для более здоровых альтернатив заказа.
Первое и второе можно выполнить с уже имеющимися у вас данными, что приятно.
Третий вариант был моим личным выбором: я использовал базу данных о составе пищевых продуктов Министерства сельского хозяйства США, чтобы искать продукты и составлять их разбивку по питательности (кстати, у них есть API). Но это также создало множество препятствий:
- Пользователи не едят все, что заказывают (например, кошачий корм, мыло, туалетную бумагу). Для этого потребуется много чистки и подгонки.
- Пользователи делают заказы не только для себя (например, компании, дни рождения, семьи).
- Пользователи делают заказы в разные сроки (например, раз в неделю, раз в две недели, раз в месяц).
- Такие предметы, как деликатесы, могут не иметь записей в базе данных USDA.
Четвертый также будет использовать базу данных USDA, но не потребует никакой пользовательской информации или возни с временными рядами.
I dea # 2: Прогнозирование солнечной энергии по спутниковым изображениям / погодным данным
Одна из серьезных проблем, связанных с массовым внедрением солнечной энергии, заключается в том, что в отличие от других источников энергии (гидроэнергетика, нефть, атомная энергия) вы не можете контролировать, как долго светит солнце. Завышение этой суммы означает убытки для производителей и инвесторов и простои для пользователей. Недооценка означает меньшие шансы на принятие решения заранее. Похоже, работа для ... машинного обучения!
На NREL можно найти множество наборов данных, однако они относятся к разным годам и в разных местах с ограничениями на то, сколько вы можете скачать за один раз. У них есть API, что полезно.
SolarAnywhere имеет академическую лицензию, позволяющую искать в любом месте (но только на 2013 год). У них тоже есть API.
Также просмотрщик данных NREL NSRDB.
Я могу придумать три непосредственных подхода:
- Использование предыдущей солнечной мощности для прогнозирования текущей солнечной мощности (временные ряды или RNN).
- Использование наборов данных о погоде
- Использование наборов данных спутниковой съемки
По этой последней теме опубликовано множество научных статей (быстрый поиск в Google Scholar дает около 30 000 результатов), но не так много общедоступных наборов данных спутниковых временных рядов.
Идея №3: обнаружение фейковых новостей
Это горячо. Не вдаваясь в полную тираду, фейковые новости явно вредны для демократии и психической устойчивости личности.
Итак, как точно определить, что фальшивка, а что правда? Вот несколько выводов на эту тему как на проблему науки о данных:
Это лучший вызов по этой теме с участием организаторов, консультантов и волонтеров из академических кругов, сообществ по машинному обучению и проверке фактов. Включает репозитории GitHub с выигравшими работами. Загляните на страницу конкурса на Codalab.
Отправная точка для хорошо проверенных фальшивых новостей и реальных событий.
3. Знакомство с фейковыми новостями - набор данных Kaggle
Коллекция из почти 13 000 предметов с 244 веб-сайтов с тегом BS из расширения BS Detector. BS Detector основан на проекте Open Sources, который классифицирует предвзятые и поддельные веб-сайты.
Где найти другие идеи
Никогда не прекращайте поиски! Вот несколько способов получить больше потенциальных клиентов в виде идей проектов или наборов данных для использования.
5. Замечательные общедоступные наборы данных на GitHub Repo
О чем я могу написать, чтобы помочь вам добиться успеха в науке о данных или трейдинге? Расскажите об этом здесь: https://bit.ly/3mStNJG