Курс IBM Data Science Certification (Specialization) на Coursera представляет собой отличное введение в науку о данных для тех, кто хочет расширить свои аналитические навыки. Этот курс знакомит с различными темами науки о данных, в том числе с тем, как правильно отображать и визуализировать данные для создания мощных моделей машинного обучения в Python. Эта специализация отлично подходит не только для новичков, которые никогда раньше не встречались со многими из этих тем, но и для более продвинутых пользователей, которые хотят проверить и развить свои текущие навыки.

Отказ от ответственности: у меня нет никаких финансовых связей или финансовых стимулов с IBM.

Обзор

Многие люди, хотя и компетентны в своих аналитических навыках, хотят расширить свое понимание различных методов обработки данных. Несмотря на то, что получение степени магистра или доктора наук в области наук о данных является замечательным делом, подача заявки и получение сертификата по науке о данных — еще один выдающийся вариант, который не заставит вас разориться, оттачивая свои навыки в области науки о данных.

Получив степень магистра наук (MS) в области исследования операций, я решил записаться на сертификационный курс IBM по науке о данных, предлагаемый на Coursera, чтобы использовать эти навыки в своих образовательных заданиях. Предполагается, что курс займет около 10 месяцев, и я смог закончить его примерно за 5 (признаюсь, что я прошел предыдущие курсы по науке о данных и получил более глубокое образование в отношении математических концепций, обсуждаемых в каждом из курсов. ). Мои два вывода из этого курса?

  1. Это отличный вводный курс для новичков, особенно для тех, кто боится программировать на Python и отказывается от него.
  2. Это отличный курс для тех, у кого есть предыдущий опыт, однако некоторые курсы могут показаться слишком простыми для более продвинутых пользователей, а упражнений по кодированию в курсе может быть недостаточно для расширения возможностей кодирования более сложных данных. ученый.

Общая оценка: 7,8/10

Главное преимущество: подборка курсов отлично справляется с медленным прогрессом и оттачиванием навыков учащегося в контролируемом темпе. Первые несколько курсов в основном объясняют область науки о данных и то, что влечет за собой, в то время как последние курсы являются более техническими и включают в себя применение студентом различных методов науки о данных с использованием языка программирования Python.

Основной минус:многие методы кодирования просто давали ответы и код. Хотя технически это не была специализация с интенсивным кодированием, я считаю, что было бы более выгодно продлить срок сертификации до года, добавить курс по программированию и давать меньше информации в модулях кодирования, чтобы студенты действительно учились. и выяснить правильный код для каждой техники. Те, кто более продвинут в науке о данных, могут захотеть пройти курс с более интенсивным кодированием, который заставит их начинать с нуля и обучает более высокоуровневым методам кодирования.

Курс 1: Что такое наука о данных?

На первой неделе этого курса студент узнает о том, что включает в себя наука о данных, а также о методологиях и практиках специалистов по данным. В течение недели 2 учащийся узнает о некоторых основных областях науки о данных, таких как большие данные, интеллектуальный анализ данных, глубокое обучение и машинное обучение. На последней неделе этого курса студент знакомится с наукой о данных в бизнесе. Самый большой плюс этого курса в том, что он хорошо дает общее представление о науке о данных. Самый большой недостаток (если таковой имеется) заключается в том, что если у студента уже есть умеренная техническая подготовка и понимание упомянутых методов обработки данных, он может счесть этот курс ненужным и скучным из-за избыточной информации.

Курс 2: Инструменты для науки о данных

Этот курс начинается с описания различных языков кодирования, обычно используемых программистами (в науке о данных). Эти языки включают Python, R и SQL (несмотря на то, что SQL технически не рассматривается некоторыми как язык, этот курс знакомит с API). После того, как учащийся знакомится с разными языками, курс знакомит его с различными службами облачных вычислений, интерфейсами прикладного программирования (API), наборами данных и типами моделей машинного обучения. На второй неделе курса учащийся знакомится с различными материалами с открытым исходным кодом, включая Jupyter Notebook, JupyterLab, RStudio и GitHub. На третьей неделе курс помогает учащимся ориентироваться в инструментах, предлагаемых IBM для Data Science. Большая часть курса включает использование Jupyter Notebooks в онлайн-платформе кодирования IBM Watson Studio. Наконец, на 4-й неделе учащиеся узнают, как внедрить и просматривать Jupyter Notebook в Watson Studio.

Курс 3: Методология науки о данных

В этом курсе студент сначала узнает, как найти (или получить) проблему и искать требования для решения указанной проблемы. После понимания требований задачи учащийся знакомится с концепцией сбора: сбор информации для решения проблемы. После того, как коллекция будет завершена, курс дополнительно учит студентов, как оценивать и проверять достоверность модели, что является важной концепцией при создании продуктов для заинтересованных сторон. Наконец, в курсе излагается методология развертывания модели и получения отзывов о модели, будь то от заинтересованных сторон или встроенных функций оценки модели.

data_falcon9.loc[:,'FlightNumber'] = list(range(1, data_falcon9.shape[0]+1))
data_falcon9

Вышеприведенный код является фрагментом этого курса, где учащегося просят отсортировать запуски Falcon9, ранее собранные во фрейме данных.

Курс 4: Python для науки о данных, искусственного интеллекта и разработки

Этот курс начинается с ознакомления студента с основами программирования на Python. Некоторые из этих основ включают понимание типов в Python путем преобразования или приведения типов данных, таких как строки, числа с плавающей запятой и целые числа, интерпретацию переменных и решение выражений с применением математических операций, а также создание программы в JupyterLab. На второй неделе учащиеся узнают о списках и кортежах, словарях и множествах. Основы программирования на Python представлены на неделе 3. Эти основы включают условия и ветвление, циклы, функции, обработку исключений, а также объекты и классы. Неделя 4 посвящена чтению и записи файлов с помощью open, а также использованию библиотек Python Pandas и Numpy. Наконец, на пятой неделе в дополнение к REST API, методам парсинга веб-страниц (например, с использованием BeautifulSoup) и обработке HTML-файлов будут представлены некоторые из наиболее простых API-интерфейсов Python.

Курс 5: Проект Python для науки о данных

На этом этапе курса студент познакомится с языком программирования Python (в основном) и, как ожидается, завершит проект Python, включающий науку о данных. Хотя это звучит пугающе, я упоминал ранее, что класс уже предоставляет много кода, и ожидается, что ученик просто заполнит пробелы. Хотя это полезно для завершения курса, попытки изучить код с нуля гораздо лучше для обучения, чем получение кода (эта книга более подробно рассказывает об этой концепции обучения). Для этого курса вам нужно будет создать панель инструментов Plotly. Инструментальные панели полезны для визуализации того, как взаимодействуют различные параметры набора данных (или наборов данных). Для студента важно научиться создавать панель инструментов Plotly, поскольку многие из результатов, которые будут запрашиваться у них заинтересованными сторонами при их найме, будут панелью инструментов. Plotly — отличный инструмент Python и чрезвычайно полезный API для специалиста по данным.

Курс 6: Базы данных и SQL для науки о данных с Python

Для меня этот курс был самым полезным, так как у меня не было опыта использования SQL. Курс 6 научит вас использовать платформу SQL через блокнот Jupyter. Студент изучает общие команды, такие как запрос всех имен столбцов для поиска конкретных экземпляров на основе определенных критериев. Первая неделя курса знакомит студента с SQL и дает ему более глубокое понимание баз данных. Для SQL базы данных являются реляционными, что означает, что в разных отдельных базах данных есть записи, которые могут соответствовать определенным функциям в других фреймах данных. Неделя 2 раскрывает реляционные базы данных, как создать реляционную базу данных и предлагает практические упражнения для работы с реляционными базами данных. На третьей неделе учащиеся учатся тому, как использовать строки и наборы диапазонов для разбора и группировки различных точек данных из базы данных. Наконец, на 4-й неделе учащиеся будут оттачивать свои навыки работы с Jupyter Notebook и использовать Python для выполнения небольшого упражнения по SQL.

%sql select landing__outcome from SPACEXTBL;

Выше приведен пример кода, используемого для отображения всех результатов посадки запусков SpaceX в базе данных.

Курс 7: Визуализация данных с помощью Python

Седьмой курс сертификации очень важен, потому что, хотя специалисты по данным должны уметь проводить надлежащий анализ, невозможность визуально представить анализ заинтересованным сторонам может в конечном итоге разрушить успех проекта. Неделя 1 представляет собой введение в визуализацию данных, в том числе о том, как создавать простые графики (точечные и линейные графики). В этом курсе используются две основные библиотеки Python: Pandasи Matplotlib. На второй неделе акцент смещается на создание площадных графиков, гистограмм, гистограмм и коробчатых диаграмм. Один график, который мне пришлось создать, был линейным графиком, который использовался для изучения тенденции успешных запусков в течение долгого времени.

Кроме того, предоставляются дополнительные упражнения для понимания и создания точечных диаграмм и пузырьковых диаграмм. На 3-й неделе курс становится более техническим с введением вафельных диаграмм и облаков слов. На этой неделе представлена ​​seaborn, еще одна высокоуровневая библиотека визуализации Python. В течение этой недели учащиеся не только узнают, как строить регрессионные графики, но и знакомятся с картами фолиума. График карты фолиума — отличный подход для всех, кто работает с геопространственными данными и хочет нанести на них геопространственные данные.

Неделя 4 является кульминацией предыдущих 3 недель, и учащийся использует Plotly Dash для создания панели инструментов с визуальными эффектами. Я рекомендую добавить этот курс в закладки для справки всякий раз, когда вы работаете над проектом для заинтересованного лица, потому что он предлагает отличное руководство по созданию окончательного проекта для лица, принимающего решения.

Курс 8: Машинное обучение с Python

Курс 8 представляет собой отличное введение для тех, кто хочет узнать больше о реализации моделей машинного обучения (ML) в Python. Неделя 1 представляет собой введение в основы машинного обучения, включая различия между обучением с учителем и без учителя, а также с некоторыми общими алгоритмами машинного обучения. На второй неделе учащийся узнает, как проводить и реализовывать регрессионный анализ. Различные типы моделей регрессии, изученные на этой неделе, включают линейную, нелинейную, простую, множественную и полиномиальную регрессии. Неделя 3 знакомит с различными типами моделей классификации машинного обучения, включая KNN, деревья решений, логистическую регрессию и машины опорных векторов. На последней неделе студенты знакомятся с алгоритмами кластеризации. Студент будет изучать три алгоритма: кластеризация на основе разделов, иерархическая и кластеризация на основе плотности. Для каждой модели до Курса 9 учащийся также узнает об оценке моделей. Например, им нужно будет найти матрицу путаницы для каждой модели, чтобы определить ее адекватность (пример ниже).

Курс 9: Краеугольный камень прикладной науки о данных

Последний курс сертификации был одним из моих любимых, потому что я смог использовать все навыки, которые я изучил за последние 8 курсов, для реального применения. В этом курсе студенту предоставляется набор данных о запусках SpaceX. Существуют различные функции, связанные с набором данных, при этом неудачи и успехи запуска являются основной выделенной функцией в проекте. Студент будет использовать SQL для исследовательского анализа, чтобы просмотреть различные атрибуты набора данных и собрать различную статистику о городах запуска SpaceX. Обнаружив успехи и неудачи, связанные с пусковыми площадками, учащиеся создадут карту Folium в Python, чтобы увидеть, где географически расположены пусковые площадки и какие физические объекты расположены рядом с ними. Как только учащийся получит представление о том, где расположены стартовые площадки и насколько они успешны, он будет использовать машинное обучение для создания различных моделей прогнозирования (KNN, SVM, логистическая регрессия, случайный лес). Наконец, студенты создадут информационную панель Plotly со своими выводами, которую могут использовать те, кто работает в SpaceX, для понимания взаимодействия каждого из отдельных запусков и соответствующих им площадок. После того, как панель инструментов создана, у студента есть возможность создать полную презентацию для заинтересованных сторон, что является ценным уроком, особенно для тех, кому придется представлять и защищать свою работу, когда они будут работать в качестве специалистов по данным.

Заключение

Планируете ли вы перейти в область Data Science из другой сферы труда или просто хотите освоить новые навыки для проведения более глубокого анализа, я настоятельно рекомендую пройти сертификацию IBM Data Science Specialization Certification для развития навыков. Для начинающих специализация дает отличный обзор различных методов науки о данных и постепенно продвигается к более техническим аналитическим подходам. Для более продвинутых пользователей курс может помочь восстановить любые заржавевшие навыки, а также пролить некоторый свет на техники, которые, возможно, были неизвестны студенту до прохождения курса. Я определенно выиграл от зачисления на курс и почувствовал, что курс улучшил мои навыки работы с данными!

Если вам понравилось сегодняшнее чтение, подпишитесь на меня и дайте мне знать, есть ли другая тема, которую вы хотели бы, чтобы я исследовал! Кроме того, добавьте меня в LinkedIn,или свяжитесь с нами! Спасибо за прочтение!