Если вы когда-либо работали над научным проектом о персональных данных, вы, вероятно, потратили много времени на поиск в Интернете интересных наборов данных для анализа. Может быть весело просеивать десятки наборов данных, чтобы найти идеальный, но также может быть неприятно загружать и импортировать несколько файлов CSV только для того, чтобы понять, что данные в конце концов не так уж интересны. В этом посте мы рассмотрим несколько типов проектов по науке о данных, включая проекты визуализации данных, проекты очистки данных и проекты машинного обучения, а также определим подходящие места для поиска наборов данных для каждого из них.

1. Каггл

Kaggle — отличный ресурс для наборов данных машинного обучения. Преимущество использования Kaggle заключается в том, что он содержит наборы данных почти из каждого домена, и вы можете найти количество ядер, относящихся к каждому набору данных.

2. НАСА

НАСА — государственная организация, финансируемая государством, поэтому все ее данные общедоступны. Он поддерживает веб-сайты, на которых любой желающий может загрузить его наборы данных, связанные с наукой о Земле и наборы данных, связанные с космосом. Вы даже можете отсортировать данные по формату на сайте наук о Земле, чтобы найти все доступные наборы данных CSV.

3. УКИ

UCI имеет общедоступные наборы данных специально для машинного обучения и анализа данных. Имеющиеся наборы данных помечены категориями, например. Классификация, регрессия, рекомендательные системы и т. д., так что вы можете легко найти набор данных для практики определенного метода машинного обучения.

4. Куандл

Quandl — хранилище экономических и финансовых данных. Часть этой информации бесплатна, но многие наборы данных требуют покупки. Quandl полезен для построения моделей для прогнозирования экономических показателей или цен на акции. Из-за большого количества доступных наборов данных можно построить сложную модель, которая использует множество наборов данных для прогнозирования значений в другом. Просмотр наборов данных Quandl.

5. Открытый набор данных правительства США — DATA.GOV

Открытый набор данных правительства США — DATA.GOV — это веб-сайт правительства США, предоставляющий бесплатные наборы данных. Здесь вы можете найти наборы данных, основанные на различных категориях, таких как сельское хозяйство, климат, здоровье и многих других.

6. Набор данных Всемирного банка

Для вашего проекта по науке о данных Набор данных Всемирного банка является лучшим открытым набором данных, предоставленным Всемирным банком. Здесь вы можете найти множество ресурсов, связанных с наборами данных, таких как Открытый каталог данных, Банк данных, Библиотека микроданных и многие другие.

7. Публичные наборы данных Google Cloud BigQuery

Общедоступные наборы данных Google Cloud BigQuery предоставляют различные общедоступные наборы данных от Google Cloud Marketplace. Представленные здесь наборы данных не являются полностью бесплатными. Первый 1 ТБ данных в месяц предоставляется бесплатно, после этого у них есть определенная цена. Чтобы получить доступ к имеющимся наборам данных, вам необходимо создать проект в Google Cloud Platform.

Первоначально опубликовано на https://pyoflife.com 2 августа 2021 г.