Пошаговое руководство, чтобы стать специалистом по данным, со всеми бесплатными ресурсами, подробно рассмотренными.
Мое руководство по исследованию данных бесплатно. Все ресурсы (книги и курсы), обсуждаемые здесь, бесплатно
Ответ на эти вопросы требует некоторых объяснений, поэтому, пожалуйста, не паникуйте, я объясню все аспекты того, как стать специалистом по данным, и расскажу об основных ресурсах по науке о данных (со ссылками) начнем:
По словам автора «Python Data Science Handbook», наука о данных — это:
Наука о данных включает три отдельные и пересекающиеся области: навыки статистика, который знает, как моделировать и обобщать наборы данных (которые становятся все больше); навыки ученого-компьютерщика, который может разрабатывать и использовать алгоритмы для эффективного хранения, обработки и визуализации этих данных; и опыт в предметной области — то, что мы можем назвать «классической» подготовкой по предмету — необходимы как для формулирования правильных вопросов, так и для того, чтобы поместить ответы на них в контекст.
→ Обзор наук о данных высокого уровня | Курс IBM
Шаг 01 Программирование
В науке о данных в основном используются два языка: Python и R. И из этих двух python наиболее широко используется во всем мире.
Какой из них вы должны изучить?
Python обычно используется теми, у кого есть технические знания или опыт программирования.
R используется теми, у кого нет или мало технических знаний в области программирования.
Где изучать Python и/или R?
Существует множество ресурсов для изучения любого из этих двух языков.
Если вас не интересуют сертификаты и вы просто хотите выучить язык, лучшими вариантами будут Udacity, Edx, Coursera.
Ресурсы
Питон:
- IBM Python для курсов по науке о данных с бесплатными сертификатами (очень хорошо объяснено с практическими рекомендациями)
- Udacity (с викторинами и итоговым проектом)
- Экспресс-центр
- DataCamp python для науки о данных (бесплатно при наличии сертификата)
- Курсера
Подробный список курсов Python с сертификатами можно найти здесь.
R:
Опять же, есть много ресурсов для изучения R. Как бесплатные, так и платные курсы. Вот некоторые из лучших бесплатных курсов по R:
DataCamp: Введение в R (бесплатно при сертификации)
IBM: Список R для курсов по науке о данных от IBM с сертификатами
Гарвард (Edx):
Теперь, если вы выбрали Python, вам нужна платформа для практики того, что вы изучаете.
Вы можете использовать следующие параметры:
- PyCharm
- Блокнот Jupyter и многое другое
Шаг 02 Статистика и вероятность
Итак, для этой части вам нужно изучить линейную алгебру, вероятность и статистику. Линейная алгебра очень важна для специалиста по данным. Вам также необходимо охватить исчисление (включая многомерное исчисление).
Ресурсы:
- Статистика 101 | IBM
- Статистика | Удасити
- Книга по линейной алгебре — Авторпрофессор математики — Массачусетский технологический институт
- Видеокурс по линейной алгебре — (Edx) Предлагается Университетом Техаса и Остина.
Есть много других ресурсов, которые вы можете выбрать
Шаг 03 Исследовательский анализ данных | ЭДА
Теперь, когда вы хорошо разбираетесь в программировании и имеете базовые математические знания, необходимые для науки о данных, следующий шаг — начать играть с данными. Игра с данными означает их анализ и подготовку к дальнейшим шагам. Например, если в ваших данных есть какие-то ненужные вещи, вам может потребоваться их удалить. Вам также может быть интересно изучить данные, чтобы получить обзор имеющихся данных. Это исследование и анализ часто называют исследовательским анализом данных в науке о данных. Итак, вам нужно освоить EDA. И говорят, что 80% времени проекта по науке о данных занимает EDA. Это означает, что EDA действительно имеет значение!
ВАМ ТАКЖЕ НУЖНО ИЗУЧАТЬ SQL!
Ресурсы
- Визуализация данных с помощью Python| IBM
- Введение в анализ данных | Удасити
- Анализ данных: абсолютные новички Microsoft
- SQL для анализа данных | Удасити
- Анализ данных с помощью R | Удасити
Шаг 04 Машинное обучение
Когда вы понимаете, что данные были изучены и проанализированы должным образом в соответствии с требованиями, наконец, пришло время перейти к этапу машинного обучения в науке о данных. Примените подходящий алгоритм машинного обучения, чтобы начать прогнозирование.
Первоначальные результаты машинного обучения могут быть удовлетворительными, а могут и не быть. Это полностью зависит от требований. Если результаты не на должном уровне, повторите EDA и примените ML. Продолжайте, пока не получите желаемые результаты.
Ресурсы
Шаг 05 Визуализация данных
Картинка стоит тысячи слов
Визуализация данных – это процесс получения информации (данных) и помещения ее в визуальный контекст, например в карту или график. Визуализация данных облегчает понимание больших и малых данныхчеловеческим мозгом, а визуализация также облегчает обнаружение закономерностей, тенденций и выбросов в группах данных.
Ресурсы
- Визуализация данных с помощью R
- Визуализация данных с помощью Python
- Визуализация данных в Tableau | Удасити
- Анализ и визуализация данных | Удасити
Шаг 06 Навыки общения
После того, как вы получите желаемые результаты от своего машинного обучения и закончите свои прогнозы, пришло время представить свои выводы из данных заинтересованной аудитории (например, заинтересованным сторонам, коллегам или высшему руководству — может быть кем угодно). Это означает, что вы должны представить свои выводы эффективным и убедительным образом. Если вы не можете должным образом сообщить о своих выводах, ваш анализ никому не нужен.
Последний шаг — проверьте свои навыки!
После того, как вы узнали все, что требуется, чтобы стать специалистом по данным, пришло время попрактиковаться в своих навыках, выполняя проекты по науке о данных.
Место для поиска проектов по науке о данных:
Вывод
Таким образом, чтобы стать специалистом по данным, требуется много учиться, поскольку это диверсифицированная область, и вы должны оставаться в курсе и продолжать учиться по мере развития новых вещей.
Наука о данных начинается со сбора данных, за которым следует анализ данных, моделирование (машинное обучение), визуализация данных и, наконец, сообщение результатов.
Я надеюсь, что у вас уже есть общее представление о том, как стать специалистом по данным.
Спасибо