Пошаговое руководство, чтобы стать специалистом по данным, со всеми бесплатными ресурсами, подробно рассмотренными.

Мое руководство по исследованию данных бесплатно. Все ресурсы (книги и курсы), обсуждаемые здесь, бесплатно

Ответ на эти вопросы требует некоторых объяснений, поэтому, пожалуйста, не паникуйте, я объясню все аспекты того, как стать специалистом по данным, и расскажу об основных ресурсах по науке о данных (со ссылками) начнем:

По словам автора «Python Data Science Handbook», наука о данных — это:

Наука о данных включает три отдельные и пересекающиеся области: навыки статистика, который знает, как моделировать и обобщать наборы данных (которые становятся все больше); навыки ученого-компьютерщика, который может разрабатывать и использовать алгоритмы для эффективного хранения, обработки и визуализации этих данных; и опыт в предметной области — то, что мы можем назвать «классической» подготовкой по предмету — необходимы как для формулирования правильных вопросов, так и для того, чтобы поместить ответы на них в контекст.

Обзор наук о данных высокого уровня | Курс IBM

Шаг 01 Программирование

В науке о данных в основном используются два языка: Python и R. И из этих двух python наиболее широко используется во всем мире.

Какой из них вы должны изучить?

Python обычно используется теми, у кого есть технические знания или опыт программирования.

R используется теми, у кого нет или мало технических знаний в области программирования.

Где изучать Python и/или R?

Существует множество ресурсов для изучения любого из этих двух языков.

Если вас не интересуют сертификаты и вы просто хотите выучить язык, лучшими вариантами будут Udacity, Edx, Coursera.

Ресурсы

Питон:

Подробный список курсов Python с сертификатами можно найти здесь.

R:

Опять же, есть много ресурсов для изучения R. Как бесплатные, так и платные курсы. Вот некоторые из лучших бесплатных курсов по R:

DataCamp: Введение в R (бесплатно при сертификации)

IBM: Список R для курсов по науке о данных от IBM с сертификатами

Гарвард (Edx):

Теперь, если вы выбрали Python, вам нужна платформа для практики того, что вы изучаете.

Вы можете использовать следующие параметры:

  • PyCharm
  • Блокнот Jupyter и многое другое

Шаг 02 Статистика и вероятность

Итак, для этой части вам нужно изучить линейную алгебру, вероятность и статистику. Линейная алгебра очень важна для специалиста по данным. Вам также необходимо охватить исчисление (включая многомерное исчисление).

Ресурсы:

Есть много других ресурсов, которые вы можете выбрать

Шаг 03 Исследовательский анализ данных | ЭДА

Теперь, когда вы хорошо разбираетесь в программировании и имеете базовые математические знания, необходимые для науки о данных, следующий шаг — начать играть с данными. Игра с данными означает их анализ и подготовку к дальнейшим шагам. Например, если в ваших данных есть какие-то ненужные вещи, вам может потребоваться их удалить. Вам также может быть интересно изучить данные, чтобы получить обзор имеющихся данных. Это исследование и анализ часто называют исследовательским анализом данных в науке о данных. Итак, вам нужно освоить EDA. И говорят, что 80% времени проекта по науке о данных занимает EDA. Это означает, что EDA действительно имеет значение!

ВАМ ТАКЖЕ НУЖНО ИЗУЧАТЬ SQL!

Ресурсы

Шаг 04 Машинное обучение

Когда вы понимаете, что данные были изучены и проанализированы должным образом в соответствии с требованиями, наконец, пришло время перейти к этапу машинного обучения в науке о данных. Примените подходящий алгоритм машинного обучения, чтобы начать прогнозирование.

Первоначальные результаты машинного обучения могут быть удовлетворительными, а могут и не быть. Это полностью зависит от требований. Если результаты не на должном уровне, повторите EDA и примените ML. Продолжайте, пока не получите желаемые результаты.

Ресурсы

Шаг 05 Визуализация данных

Картинка стоит тысячи слов

Визуализация данных – это процесс получения информации (данных) и помещения ее в визуальный контекст, например в карту или график. Визуализация данных облегчает понимание больших и малых данныхчеловеческим мозгом, а визуализация также облегчает обнаружение закономерностей, тенденций и выбросов в группах данных.

Ресурсы

Шаг 06 Навыки общения

После того, как вы получите желаемые результаты от своего машинного обучения и закончите свои прогнозы, пришло время представить свои выводы из данных заинтересованной аудитории (например, заинтересованным сторонам, коллегам или высшему руководству — может быть кем угодно). Это означает, что вы должны представить свои выводы эффективным и убедительным образом. Если вы не можете должным образом сообщить о своих выводах, ваш анализ никому не нужен.

Последний шаг — проверьте свои навыки!

После того, как вы узнали все, что требуется, чтобы стать специалистом по данным, пришло время попрактиковаться в своих навыках, выполняя проекты по науке о данных.

Место для поиска проектов по науке о данных:

Kaggle

Датакемп

Вывод

Таким образом, чтобы стать специалистом по данным, требуется много учиться, поскольку это диверсифицированная область, и вы должны оставаться в курсе и продолжать учиться по мере развития новых вещей.

Наука о данных начинается со сбора данных, за которым следует анализ данных, моделирование (машинное обучение), визуализация данных и, наконец, сообщение результатов.

Я надеюсь, что у вас уже есть общее представление о том, как стать специалистом по данным.

Спасибо