на Kaggle.

Оглавление

  1. Вступление
  2. Kaggle
  3. Наборы данных
  4. Резюме
  5. использованная литература

Вступление

Через определенное время вы можете заметить, что похожие наборы данных используются в блогах по науке о данных, в программах бакалавриата, аспирантуре и онлайн-обучении. Эти наборы данных могут иногда отражать текущие события, происходящие в мире, или могут быть общими, но чрезвычайно популярными наборами данных, используемыми для практики и демонстрации методов и процессов науки о данных. Самым важным аспектом этих наборов данных является то, что они в конечном итоге используются для достижения большего блага, объединяя разумные умы для решения насущных проблем. Есть несколько сайтов, на которых могут быть размещены наборы данных, но я захожу на один и тот же - это Kaggle. Эта платформа предлагает бесчисленные наборы данных и ранжирует их по трендам. Сейчас я буду обсуждать четыре из 10 лучших наборов данных для науки о данных.

По мере того, как данные становятся более доступными, важно знать, что с этими данными становится еще больше внимания, что вы с ними делаете. Эти наборы данных выделяют определенные призывы к действию, задачи и вдохновения, поэтому, если вы не знаете, как обрабатывать данные, эта часть информации набора данных может быть весьма полезной.

Kaggle

Kaggle [2] - это платформа для анализа данных, специалистов по данным и инженеров по машинному обучению, которая позволяет совместно решать проблемы, конкурировать и в целом учиться друг у друга. На момент написания этой статьи на Kaggle было около 46 000 наборов данных. Вы можете отфильтровать наборы данных по Самым популярным, Самым популярным, Новым, Обновленным и Юзабилити.

Наборы данных, которые я буду описывать в этой статье, отсортированы по фильтру «Самые популярные» и состоят из четырех из 10 лучших наборов данных.

Наборы данных

Ниже я выделю имена, описания и факты о четырех самых популярных наборах данных на Kaggle. В некоторых наборах данных также есть призывы к действию, задачи, вдохновение и призы. Конечно, в эти беспрецедентные времена основной набор данных относится к COVID-19.

Описание -

У этого набора данных около 7900 голосов. Основная цель набора данных - использовать его в качестве задачи искусственного интеллекта (AI) с AI2, CZI, MSR, Georgetown, а также NIH и Белым домом. Этот открытый набор данных является ответом на пандемию COVID-19 и содержит почти 15 ГБ данных. С этим набором данных связано около 17 задач. Примером задачи может быть «Что мы знаем о факторах риска COVID-19?». Специалистам по данным рекомендуется использовать этот набор данных с обработкой естественного языка и методами искусственного интеллекта, чтобы в конечном итоге послужить поддержкой в ​​борьбе с этим распространенным заболеванием.

Одна только эта причина отличает Kaggle от других веб-сайтов с наборами данных - веб-сайт побуждает людей из разных слоев общества объединяться для борьбы с насущной проблемой.

Как и в описании, есть и другие ключевые особенности набора данных, включая «Призыв к действию» и «Призы».

Призыв к действию -

Создание инструментов интеллектуального анализа текста и данных из постановки научных вопросов с использованием науки о данных.

Призы -

1000 долларов за каждую задачу.

Описание -

Этот набор данных описывает электроэнергию Индии за 2017–2020 годы. Он состоит из 265 КБ. В контексте набора данных упоминается, что Индия отличалась быстрым ростом производства электроэнергии почти 35 лет назад и, в свою очередь, продемонстрировала рост экономики, экспорта, инфраструктуры и доходов домохозяйств. Основные теги включают вычисления, образование, новости, энергию, возобновляемые источники энергии и исследования. Набор данных вдохновлен тем, чтобы узнать, как наука о данных может повлиять на возобновляемые и невозобновляемые источники энергии в Индии.

Описание -

Этот уникальный набор данных включает в себя функции по финансовым вопросам, исследованиям мозга, национальным знаниям и благополучию. Точные факторы:

GDP per capita
Health Life Expectancy 
Social support
Freedom to make life choices
Generosity
Corruption Perception
Residual error

Этот набор данных, состоящий из около 116 КБ, включает шесть отдельных CSV, включая соответствующие годы: 2015, 2016, 2017, 2018, 2019 и 2020 годы. С этим набором данных связана одна задача: 'Сравнить страны по уровню счастья и другим человеческим показателям '. В конечном итоге цель этого набора данных может зависеть от вас, как и для любого набора данных. Это другой подход к количественной оценке счастья.

Подобно набору данных COVID-19, эти данные могут помочь в решении актуальной темы здравоохранения, которая сдерживается в нескольких странах. Хорошая новость, судя по контексту этого набора данных, заключается в том, что малярию можно предотвратить и излечить. Функции в этом наборе данных размером 212 КБ включают, помимо прочего: страну, год и количество наблюдений. Существует три CSV, в том числе: report_numbers.csv, estiamted_numbers.csv и incidence per 100 pop at_risk.csv. Одна из задач этого набора данных - «выяснить, нет ли. случаев малярии увеличивается с каждым годом? ’.

Резюме

В общем, эти наборы данных - лишь некоторые из самых популярных наборов данных на известной платформе Kaggle. Их еще тысячи, но на данный момент это одни из самых популярных и актуальных наборов данных. Наборы данных охватывают темы здоровья, в основном, COVID-19, электроэнергии / электричества, счастья и малярии. Чтобы получить дополнительную информацию с подробными функциями / столбцами, источником данных, а также примерами использования набора данных с кодом и визуализациями, просмотрите соответствующие ссылки, прикрепленные к каждому заголовку набора данных.

Надеюсь, эта статья была для вас интересной и полезной. Спасибо за внимание!

использованная литература

[1] Фотография Патрика Ассале на Unsplash (19 марта 2020 г.)

[2] Kaggle, Наборы данных Kaggle, (2020)

[3] Каггл, Вызов открытого набора данных по COVID-19 (CORD-19), (2020)

[4] Каггл, Ежедневное производство электроэнергии в Индии (2017–2020 гг.), (2020 г.)

[5] Kaggle, Отчет о мировом счастье до 2020 года, (2020)

[6] Кейгл, Набор данных по малярии, (2020)

[7] Фото Mika Baumeister на Unsplash, (2018)