Работа в области науки о данных является одной из самых востребованных в настоящее время. Хотя заниматься наукой о данных сложно, еще труднее продолжать приобретать и совершенствовать ключевые навыки, чтобы преуспеть в качестве профессионала в области обработки данных.

Эта статья предназначена как для новичков, пытающихся начать свою карьеру в науке о данных, так и для опытных профессионалов, желающих перейти в эту область работы. Проработав несколько лет инженером по машинному обучению, я подытоживаю свой опыт, чтобы поделиться ключевыми навыками, необходимыми для того, чтобы добиться успеха в работе, связанной с наукой о данных.

Независимо от того, насколько причудливо это выглядит со стороны, наука о данных заключается в том, чтобы правильно овладеть некоторыми базовыми навыками. Я расскажу об этих навыках в следующем разделе вместе с несколькими ресурсами для создания и применения каждого из них.

1. SQL

Несомненно, это основной и самый важный навык для специалиста по данным. Большинство компаний по-прежнему хранят большие объемы данных в реляционных системах баз данных, таких как MySQL, PostgreSQL, MS SQL Server, SQLite и т. д. Умение писать эффективные SQL-запросы может стать вашим основным преимуществом в карьере специалиста по данным.

Ниже приведены наиболее важные функции, на которых следует сосредоточиться.

  • Функции агрегирования: агрегирование результатов с помощью функций Min, Max, Sum, Count, Average для одного или нескольких столбцов.
  • Группировать по: группировка строк по одному или нескольким столбцам для поиска агрегированных результатов по этим столбцам. Group by обычно используется с функциями агрегирования.
  • Соединения: объединение двух или более таблиц на основе общих столбцов и получение данных из объединенных таблиц. Соединение может быть левым, правым, внутренним или полным внешним соединением.
  • Подзапросы и CTE. И подзапросы, и CTE (общее табличное выражение) используются для создания временных таблиц в сложных запросах. Основное различие между ними заключается в том, что CTE определяется до написания основного запроса и может использоваться повторно.
  • Функция окна: используется для применения функций агрегирования и ранжирования к набору строк, называемому окном. Это наиболее полезно, когда нам нужно работать с группой строк и отображать одно агрегированное значение для каждой строки.

Я настоятельно рекомендую пройти бесплатный курс SQL для анализа данных» по Udacity, который охватывает все упомянутые функции, а также практические упражнения.

2. Статистика

Поскольку машинное обучение основано на статистике, твердое понимание основных статистических концепций является обязательным для любого специалиста по науке о данных. Ниже приведены некоторые из этих ключевых понятий:

  • Меры центральной тенденции (среднее, мода, медиана)
  • Меры изменчивости (дисперсия, стандартное отклонение, коэффициент вариации)
  • Корреляция и причинность
  • Распределения вероятностей (нормальное, биномиальное, равномерное и т. д.)
  • Стандартизация и Z-оценка
  • Центральная предельная теорема
  • Доверительные интервалы и уровни достоверности
  • р-значение
  • Проверка гипотезы

Учебная платформа Oreilly предлагает одни из лучших онлайн-курсов и электронных книг по статистике. Статистика для науки о данных и бизнес-анализа — один из таких комплексных курсов, охватывающий все эти концепции вместе с соответствующими примерами из практики.

3. Машинное обучение

Машинное обучение охватывает как контролируемые, так и неконтролируемые алгоритмы обучения. Обучение с учителем можно разделить на следующие две категории.

(1) Регрессия. Когда целевая или зависимая переменная для прогнозирования представляет собой непрерывное число, это называется регрессионным анализом. Прогнозирование цен на жилье на основе определенных характеристик, таких как площадь, количество спален и т. д., является примером регрессии.

Ниже приведены наиболее распространенные алгоритмы для решения задач регрессии:

  • Простая/множественная линейная регрессия
  • Ридж и регрессия Лассо
  • Регрессор дерева решений
  • Модели ансамблевой регрессии (случайный лес, XGBoost и т. д.)

(2) Классификация.Классификация — это задача прогнозирования класса или категории из списка дискретных значений. Одним из лучших примеров классификации является определение того, является ли электронное письмо спамом или нет. Классификация может быть как бинарной, так и мультиклассовой (более 2-х классов).

Среди многих алгоритмов классификации наиболее широко используются следующие:

  • Логистическая регрессия
  • K-ближайшие соседи
  • Опорные векторные машины
  • Классификатор дерева решений
  • Модели классификации ансамбля (случайный лес, XGBoost и т. д.)

Analytics Vidhya и Towards Data Science — одни из лучших блогов для развития навыков машинного обучения. Kaggle, возможно, является лучшей платформой для отработки этих навыков на самых разных наборах данных.

4. Облачные вычисления

Поскольку большинство компаний используют тех или иных поставщиков облачных услуг, очень важно иметь в своем арсенале базовые навыки работы с облачными технологиями. Облачные системы используются для настройки разрешений, хранения файлов и размещения хранилищ данных. Они также предоставляют услуги для выполнения всех циклов проекта по науке о данных.

Amazon Web Services (AWS), Microsoft Azure и Google Cloud Platform (GCP) входят в тройку крупнейших поставщиков облачных услуг по состоянию на 2022 год. практические знания любой из этих платформ будут иметь большое значение в вашей карьере в области науки о данных. Проработав с AWS уже долгое время, я нахожу Sagemaker отличной платформой для создания, обучения и развертывания моделей машинного обучения практически для любого варианта использования.

5. Машинное обучение

Машинное обучение + DevOps = MLOps

Хотя важно анализировать ваши данные и находить наиболее подходящую модель для решения проблемы, не менее важно перевести ее в производство, чтобы генерировать прогнозы в режиме реального времени или периодически. Развертывание, мониторинг и переобучение моделей ML будет востребованным навыком для любой роли в науке о данных.

ML Ops в основном означает операции ML, целью которых является оптимизация жизненного цикла проекта по науке о данных. Типичный рабочий процесс ML состоит из следующих шагов:

  • Сбор данных
  • ЭДА
  • Подготовка данных и разработка функций
  • Обучение и настройка модели
  • Оценка модели
  • Развертывание модели и мониторинг
  • Переподготовка моделей

Эффективная стратегия ML Ops позволяет группам обработки данных ускорить разработку моделей, предоставить более качественные модели ML и ускорить развертывание. Кроме того, он обеспечивает воспроизводимость конвейеров машинного обучения, которые можно использовать для реализации нескольких проектов.

Бонусный совет

Если вы тот, кто хочет перейти на роль специалиста по науке о данных, вы должны сосредоточиться в первую очередь на создании портфолио практических проектов. Каждый проект в вашем портфолио должен иметь сквозную реализацию, включающую все основные этапы жизненного цикла проекта по науке о данных (как упоминалось ранее).

Вы можете начать с участия в соревнованиях, размещенных на Kaggle и Analytics Vidhya, и обрести уверенность. Эти порталы не только предоставляют вам платформу для конкуренции, но и позволяют учиться у коллег по обработке данных, ссылаясь на их работу.

Заключение

Наука о данных — это захватывающая и растущая область с безграничными возможностями. Правильное понимание основ должно быть вашим главным приоритетом в вашем путешествии по науке о данных. Существует множество ресурсов, доступных бесплатно или с минимальной оплатой. Вам просто нужно настойчивость, дисциплина и терпение, чтобы достичь своих целей. Так что никогда не сдавайтесь и продолжайте идти.

Пожалуйста, дайте мне знать в комментариях, если вы найдете эту статью полезной. Я инженер машинного обучения и блогер. Вы можете связаться со мной в моем профиле на LinkedIn.

Спасибо за прочтение.

Ссылки