Основные навыки, которые вам нужно знать, чтобы начать заниматься наукой о данных.

Наука о данных постоянно развивается, поэтому овладение ее базовыми техническими навыками и социальными навыками поможет нам добиться успеха в карьере специалиста по данным, а также в реализации передовых концепций, таких как глубокое обучение и искусственный интеллект.

Наука о данных - это такая обширная область, которая включает в себя несколько подразделений:

  • Подготовка и исследование данных
  • Представление и преобразование данных
  • Визуализация и представление данных
  • Прогностическая аналитика
  • Машинное обучение ... и т. Д.

Для новичков вполне естественно задать следующий вопрос ...

Какие навыки мне нужны, чтобы стать специалистом по анализу данных?

В этом блоге / статье мы обсудим 10 основных навыков, которые необходимы практикующим специалистам по данным.

Эти навыки можно разделить на две категории:

  • Технические навыки - [математика и статистика, навыки программирования, навыки обработки и предварительной обработки данных, навыки визуализации данных, навыки машинного обучения и навыки работы с проектами в реальном мире].
  • Мягкие навыки - [коммуникативные навыки, навыки непрерывного обучения, навыки командного игрока и этические навыки].

Наука о данных - это постоянно развивающаяся область, однако освоение основ науки о данных предоставит вам необходимый фон, который вам понадобится для реализации передовых концепций, таких как глубокое обучение, искусственный интеллект и т. Д.

10 основных навыков для практики Data Science.

Давайте обсудим один на один.

1. Навыки математики и статистики

(а) Статистика и вероятность

Статистика и вероятность используются для визуализации признаков, предварительной обработки данных, преобразования признаков, вменения данных, уменьшения размерности, проектирования признаков, оценки модели и т. Д.

Темы, с которыми вам необходимо ознакомиться:

  • Среднее значение, медиана, мода, стандартное отклонение / дисперсия, коэффициент корреляции и ковариационная матрица, распределения вероятностей (биномиальное, пуассоновское, нормальное), p-значение, MSE (среднеквадратичная ошибка), оценка R2, теорема Бая (точность, отзыв, Положительная прогностическая ценность, отрицательная прогностическая ценность, матрица неточностей, кривая ROC), A / B-тестирование, моделирование Монте-Карло.

(б) Многопараметрическое исчисление

Большинство моделей машинного обучения построены с использованием набора данных, имеющего несколько функций или предикторов. Следовательно, знакомство с многомерным исчислением чрезвычайно важно для построения модели машинного обучения.

Темы, с которыми вам необходимо ознакомиться:

  • Функции нескольких переменных, производные и градиенты, ступенчатая функция, сигмовидная функция, функция логита, функция ReLU (выпрямленная линейная единица), функция стоимости, построение графиков функций, минимальное и максимальное значения функции.

(c) Линейная алгебра

Линейная алгебра - самый важный математический навык в машинном обучении. Набор данных представлен в виде матрицы. Линейная алгебра используется при предварительной обработке данных, преобразовании данных и оценке модели.

Темы, с которыми вам необходимо ознакомиться:

  • Векторы, матрицы, транспонирование матрицы, обратная матрица, определитель матрицы, точечное произведение, собственные значения, собственные векторы.

(г) Методы оптимизации

Большинство алгоритмов машинного обучения выполняют прогнозное моделирование, минимизируя целевую функцию, тем самым изучая веса, которые должны быть применены к данным тестирования для получения прогнозируемых меток.

Темы, с которыми вам необходимо ознакомиться:

  • Функция стоимости / целевая функция, функция правдоподобия, функция ошибок, алгоритм градиентного спуска и его варианты (например, алгоритм стохастического градиентного спуска).

2. Основные навыки программирования

Навыки программирования необходимы в науке о данных. Поскольку Python и R считаются двумя самыми популярными языками программирования в науке о данных, важные знания обоих языков имеют решающее значение. Некоторым организациям могут потребоваться только навыки в R или Python, хорошо знать и то, и другое.

(i) Навыки Python

Ознакомьтесь с базовыми навыками программирования на Python. Вот наиболее важные пакеты, которые вы должны освоить, как использовать:

  • Numpy, Pandas, Matplotlib, Seaborn, Scikit-learn, PyTorch.

(ii) Навыки R

  • Tidyverse, Dplyr, Ggplot2, Caret, Stringr… ..и т. Д.

(iii) Навыки на других языках программирования

Некоторым организациям или отраслям могут потребоваться навыки владения следующими языками программирования:

  • Tableau, SQL, Spark, Hadoop, Excel… ..и т. Д.

3. Навыки предварительной обработки и обработки данных

Данные являются ключом к любому анализу в науке о данных, будь то анализ выводов, прогнозный анализ или предписывающий анализ. Прогностическая сила модели зависит от качества данных, которые использовались при построении модели.

Данные бывают разных форм, например:

  • текст, таблица, изображение, голос или видео… и т. д.
  • Чаще всего данные, которые используются для анализа, необходимо добывать, обрабатывать и преобразовывать, чтобы привести их в форму, подходящую для дальнейшего анализа.

(i) Обработка данных:

Процесс обработки данных - важный шаг для любого специалиста по данным. Очень редко данные в проектах по науке о данных легко доступны для анализа. Более вероятно, что данные находятся в файле, базе данных или извлечены из таких документов, как веб-страницы, твиты или PDF-файлы. Знание того, как обрабатывать и очищать данные, позволит вам извлекать из ваших данных важную информацию, которая в противном случае была бы скрыта.

(ii) Предварительная обработка данных:

Знания о предварительной обработке данных очень важны и включают такие темы, как:

  • Работа с недостающими данными
  • Вменение данных
  • Обработка категориальных данных
  • Кодирование меток классов для задач классификации
  • Методы преобразования функций и уменьшения размерности, такие как анализ главных компонентов (PCA) и линейный дискриминантный анализ (LDA).

4. Навыки визуализации данных.

Разберитесь в основных компонентах хорошей визуализации данных.

(a) Компонент данных. Важным первым шагом в принятии решения о том, как визуализировать данные, является определение типа данных, например, категориальные данные, дискретные данные, непрерывные данные, данные временных рядов и т. д. .

(b) Геометрический компонент: здесь вы решаете, какой вид визуализации подходит для ваших данных, например, точечная диаграмма, линейные диаграммы, гистограммы, гистограммы, QQ-графики, сглаженные плотности, коробчатые диаграммы, парные графики, тепловые карты и т. д.

(c) Компонент сопоставления: здесь вам нужно решить, какую переменную использовать в качестве переменной x, а что использовать в качестве переменной y. Это важно, особенно если ваш набор данных многомерный с несколькими функциями.

(d) Компонент шкалы. Здесь вы решаете, какие шкалы использовать, например, линейную шкалу, логарифмическую шкалу и т. д.

(e) Компонент Labels: он включает в себя такие вещи, как метки осей, заголовки, легенды, размер шрифта и т. д.

(е) Этический компонент: здесь вы хотите убедиться, что ваша визуализация рассказывает правду. Вы должны осознавать свои действия при очистке, суммировании, манипулировании и создании визуализации данных и убедиться, что вы не используете визуализацию для введения в заблуждение или манипулирования аудиторией.

5. Навыки машинного обучения

Машинное обучение - очень важная отрасль науки о данных. Важно понимать структуру машинного обучения: постановку задачи, анализ данных, построение модели, тестирование и оценку и применение модели.

Ниже приведены важные алгоритмы машинного обучения, с которыми необходимо ознакомиться.

(i) Обучение с учителем (непрерывное прогнозирование переменных)

(а) Базовая регрессия

(б) Мульти-регрессионный анализ

(c) Регуляризованная регрессия

(ii) Обучение с учителем (прогнозирование дискретных переменных)

(а) Классификатор логистической регрессии

(b) Машинный классификатор опорных векторов

(c) Классификатор K-ближайшего соседа (KNN)

(d) Древовидный классификатор решений

(e) Классификатор случайных лесов

(iii) Обучение без учителя

(а) Алгоритм кластеризации KMeans

Добавить диаграмму или конвейер машинного обучения

6. Навыки из реальных проектов в области науки о данных.

Навыки, приобретенные только в ходе курсовых работ, не сделают вас специалистом по данным. Квалифицированный специалист по данным должен быть в состоянии продемонстрировать свидетельства успешного завершения реального проекта в области науки о данных, который включает в себя все этапы процесса обработки и машинного обучения, такие как формирование проблемы, сбор и анализ данных, построение модели, тестирование модели, оценка модели. , и развертывание моделей. Реальные проекты в области науки о данных можно найти в следующем:

а) Проекты Kaggle

б) Хакатоны

б) Стажировки

в) Из интервью.

7. Навыки общения

Специалисты по обработке данных должны иметь возможность делиться своими идеями с другими членами команды или с бизнес-администраторами в своих организациях. Хорошие коммуникативные навыки сыграли бы здесь ключевую роль, чтобы иметь возможность передавать и представлять техническую информацию людям, мало или совсем не разбирающимся в технических концепциях науки о данных. Хорошие коммуникативные навыки помогут создать атмосферу единства и сплоченности с другими членами команды, такими как аналитики данных, инженеры данных, полевые инженеры и т. Д.

8. Будучи вечным учеником.

Наука о данных - это область, которая постоянно развивается, поэтому будьте готовы осваивать и изучать новые технологии. Один из способов оставаться в курсе событий в этой области - общаться с другими учеными. Некоторые платформы, которые способствуют развитию сетей, - это LinkedIn, GitHub и Medium (публикации Towards Data Science и Towards AI). Платформы очень полезны для получения актуальной информации о последних разработках в этой области.

9. Навыки командного игрока.

Как специалист по данным, вы будете работать в команде аналитиков данных, инженеров, администраторов, поэтому вам потребуются хорошие коммуникативные навыки. Вы также должны быть хорошим слушателем, особенно на ранних этапах разработки проекта, когда вам нужно полагаться на инженеров или другой персонал, чтобы иметь возможность спроектировать и сформулировать хороший проект в области науки о данных. Хороший командный игрок поможет вам преуспеть в деловой среде и поддерживать хорошие отношения с другими членами вашей команды, а также с администраторами или директорами вашей организации.

10. Этические навыки в науке о данных.

Поймите значение вашего проекта. Будьте честны с собой. Избегайте манипулирования данными или использования методов, которые намеренно приводят к искажению результатов. Будьте этичными на всех этапах, от сбора и анализа данных до построения моделей, анализа, тестирования и применения. Избегайте фальсификации результатов с целью введения в заблуждение или манипулирования вашей аудиторией. Будьте этичны в интерпретации результатов вашего проекта по науке о данных.

Резюмируйте

Таким образом, мы обсудили 10 основных навыков, которые необходимы практикующим специалистам по обработке данных. Наука о данных - это область, которая постоянно развивается, однако освоение основ науки о данных предоставит вам необходимый фон, необходимый для реализации передовых концепций, таких как глубокое обучение, искусственный интеллект и т. Д.