Вы хотите стать специалистом по данным, но до сих пор не знаете, что для этого нужно сделать? Я покажу вам, чему учиться и где учиться!

10 лет назад СМИ продавали нам науку о данных как профессию будущего, и у меня для вас новость: это уже будущее, и действительно, наука о данных — одна из самых востребованных профессий в мире! Из вышесказанного вы и сами поймете, что зарплаты у дата-сайентистов высокие и подавно, потому что дата-сайентистов не хватает.

Теперь, когда вы читаете это, вы можете подумать: «Если я стану специалистом по данным, у меня будет работа и хорошая зарплата», и, конечно, вы будете. Теперь, когда вы это знаете, у вас может возникнуть вопрос: «Что мне нужно знать, чтобы стать специалистом по данным?» Ну, Джош Уиллс объясняет, что он специалист по данным, и это объяснение само по себе является очень хорошим приближением к тому, чему вы должны научиться, чтобы стать специалистом по данным: «Ученый по данным (n): Человек, который знает больше, чем статистик, чем любой программист. и который при этом знает о программировании больше, чем любой статистик». Сказав это, очевидно, что вы должны изучить статистику и программирование… много программирования. Спасибо, Джош, за определение специалиста по данным! Он служит основой для разработки нашего пути обучения.

Конечным пунктом пути обучения является то, что вы станете специалистом по данным, однако маршрут содержит несколько «остановок», и именно на этих «остановках» вы приобретете знания и навыки, необходимые для того, чтобы стать хорошим специалистом по данным. На этих «остановках» вы также узнаете, какие инструменты вы должны использовать для внедрения и применения на практике всех навыков и знаний, которые вы приобрели, готовясь стать специалистом по данным. Да, я имею в виду навыки, которые вам понадобятся, такие как навыки языка программирования и библиотеки для манипулирования данными и управления ими. Я также имею в виду знания, которые вам понадобятся для правильной интерпретации графиков и числовых результатов, которые вы получите после обработки данных; потому что именно вы поймете информацию, сгенерированную данными, и именно вы преобразуете эту информацию в полезные знания для вашего работодателя (обратите внимание, что информация и знания не одно и то же)

Не более того, позвольте мне показать вам путь обучения и 3 остановки, которые вам нужно сделать:

Часть 1. Необходимые теоретические основы
• Описательная статистика и теория вероятностей
• Линейная алгебра

Часть 2. Необходимые навыки
• Программирование и разработка алгоритмов
• Структуры данных

Часть 3. Инструменты, которые необходимо знать
• Библиотеки и наборы инструментов
• Машинное обучение и искусственный интеллект

Из графика можно сделать вывод, что определенного порядка выполнения первых частей нет. Некоторые сначала учатся программировать, а затем изучают необходимую теоретическую базу; другие сначала изучают теорию, а затем учатся программировать, а некоторые изучают и то, и другое одновременно. Тем не менее, вы должны помнить, что вы должны знать обе вещи, прежде чем научиться использовать библиотеки, методы искусственного интеллекта и алгоритмы машинного обучения.

Теперь давайте поговорим о теоретических основах, которые вам нужны, чтобы быть специалистом по данным.

СТАТИСТИКА

Аналитика данных и наука о данных не могут выжить без статистики. Статистика — это, по сути, воздух, которым дышит наука о данных, и, следовательно, специалист по данным должен владеть описательной статистикой, статистикой вывода и теорией вероятности. С одной стороны, можно сказать, что вам нужна вся описательная статистика, то есть вы должны знать графические и численные методы описания качественных и количественных данных, и это можно резюмировать двумя простыми вещами: какие типы статистических графиков существуют и когда удобно использовать каждый тип диаграммы. С другой стороны, у нас есть статистика вывода и теория вероятностей, и это фундаментально для машинного обучения. Но, в частности, что вам нужно знать, чтобы начать свою карьеру в качестве специалиста по данным?

Чтобы ответить на этот вопрос, посмотрите таблицу ниже. Вы можете увидеть четкую разницу между статистическим обучением и машинным обучением. Разница, которую многие найдут между одним типом обучения и другим, заключается в том, что статистическое обучение выполняется математиками, а машинное обучение — учеными данных. Но различия идут гораздо дальше и дальше, и из всех них наиболее важным является то, что математик или статистик могут анализировать небольшие наборы данных; но специалист по данным может анализировать тысячи и даже миллионы данных и обнаруживать закономерности, даже когда нет очевидной связи или очевидной корреляции между тысячами или миллионами переменных, и благодаря этому специалисты по данным могут делать прогнозы или предсказания.

Специалисты по данным реализуют машинное обучение, в свою очередь, машинное обучение обнаруживает закономерности и делает прогнозы, а прогнозы делаются с использованием теорий вероятности. Но; Говоря о машинном обучении, какие существуют типы машинного обучения? Давайте посмотрим на следующую таблицу:

Как вы могли видеть в предыдущей таблице, существует 4 типа машинного обучения: обучение с учителем, обучение без учителя, полууправляемое обучение и обучение с подкреплением. Но не волнуйтесь, я не отошел от темы; Я знаю, что мне нужно поговорить с вами о статистике, которую вам нужно знать, чтобы стать специалистом по данным, и я собираюсь сделать именно это. Я просто хочу, чтобы вы увидели, как все это связано. Итак, чтобы поговорить с вами о том, сколько статистики вам нужно, давайте просто поговорим об обучении с учителем, и для этого я хочу, чтобы вы посмотрели на следующую диаграмму и увидели типы обучения с учителем и статистику по каждому из них.

Посмотрите, как все имеет смысл: обучение с учителем осуществляется по классификации или по регрессии, и в обоих случаях используются статистические данные: случайные леса, деревья решений, байесовские модели, деревья регрессии и регрессионный анализ (обобщенные линейные модели: множественная регрессия, регрессионная логистика, регрессия LASSO). , RIDGE, ELASTICNET)… Ого, сколько статистики! Сказав все это, становится ясно, что если вы хотите быть специалистом по данным, вы должны изучить статистику или, по крайней мере, достаточно, чтобы иметь возможность запускать алгоритмы и интерпретировать результаты. Поэтому ниже я сделаю краткий обзор наиболее часто используемых статистических концепций в науке о данных.

1) Деревья решений. Вы должны знать о деревьях решений, потому что они позволяют создавать прогностические модели в науке о данных. Кроме того, они позволяют быстро и эффективно идентифицировать наиболее важные переменные (предикторы), способны автоматически выбирать предикторы и могут применяться к задачам классификации и регрессии.

2) Байесовские модели. Вы должны изучить байесовские модели, потому что они обеспечивают первое приближение к расчету условной вероятности в моделях машинного обучения, особенно в ситуациях, когда интуиция может подвести.

3) Обобщенные модели линейной регрессии. Вам следует изучить обобщенные модели линейной регрессии просто потому, что они являются основой простейших моделей машинного обучения и в то же время наиболее часто используются. Кроме того, большая универсальность этих регрессионных моделей позволяет разрабатывать прогностические модели с одной переменной, которые зависят от одной или многих переменных, с низкими вычислительными требованиями.

Теперь, когда вы все это прочитали, у вас может возникнуть вопрос: «Где я могу всему этому научиться?» Не волнуйтесь, я скажу вам, в каких книгах вы это узнаете:

  • ВЕРОЯТНОСТЬ И СТАТИСТИКА ДЛЯ ТЕХНИКИ И НАУК (Джей Л. Девор).
    На мой взгляд, книга Девора, пожалуй, лучшая книга для ознакомления студентов с вероятностью. теории. Он содержит подробное объяснение основных тем и несколько примеров для практики.
  • СТАТИСТИКА ДЛЯ ИНЖЕНЕРОВ И УЧЕНЫХ (Уильям Навиди).
    Отличная книга для изучения фундаментальных понятий статистики и теории вероятностей. Дополнительным преимуществом этой книги является то, что в главе 3 представлена ​​концепция распространения ошибок, которая дает базовое понимание измерения ошибок при сборе данных и распространения ошибок, а также их влияние на вычисляемые значения.
  • СТАТИСТИЧЕСКИЕ МЕТОДЫ ДЛЯ МАШИННОГО ОБУЧЕНИЯ (Джейсон Браунли).
    Браунли говорит об этой книге очень прямо, можно сказать, что это курс с основными статистическими концепциями для машинное обучение. Браунли исходит из того, что если вы хотите эффективно обучаться машинному обучению, вы должны понимать основы, и именно этому она вас учит, основам. Книга содержит ряд пошаговых руководств, обучающих работе с Matplotlib, Scipy, Numpy и Statsmodels. Он отлично подходит для изучения фундаментальных концепций и практического использования библиотек.
  • ВЕРОЯТНОСТЬ ДЛЯ СТАТИСТИКИ И МАШИННОГО ОБУЧЕНИЯ (Анирбан ДасГупта).
    Жемчужина в короне… Название книги говорит само за себя и делает все то, что книги I упомянутое делать, только с гораздо большим количеством упражнений и с гораздо большим количеством понятий; который перенесет вас с базового уровня на средний или даже продвинутый уровень. На более чем 800 страницах он учит вас основам и продвинутым аспектам статистики и машинного обучения, а также предоставляет вам учебные пособия по наиболее полезным библиотекам Python для науки о данных и предлагает вам множество задач, чтобы вы могли практиковаться и стать компетентный специалист по данным.

Книги, которые я вам только что порекомендовал, очень полезны, потому что они показывают вам концепции и бросают вызов большому количеству предлагаемых задач, в которых вы сможете проверить свое понимание и повысить свою способность анализировать данные; но если вы все еще думаете, что вам нужен учебник, ознакомьтесь с бесплатными курсами по следующим ссылкам:

ЛИНЕЙНАЯ АЛГЕБРА

Чтобы вы знали, насколько важна линейная алгебра в науке о данных, просто скажем вам, что линейная алгебра — это математика данных. Поэтому вам следует изучить матричную алгебру, матричную нотацию, матричную факторизацию и линейную алгебру для статистики. Далее я сделаю краткий обзор концепций линейной алгебры, наиболее часто используемых в науке о данных.

1) Матричная алгебра. Вы должны изучить матричную алгебру, потому что в моделях машинного обучения данные хранятся и обрабатываются как матрицы. Например: в цифровой обработке изображений; через машинное обучение; изображения обрабатываются как массивы значений от 0 до 255, которые представляют яркость каждого цвета для каждого пикселя. Другим примером является детектор спама, сначала текстовые данные должны быть преобразованы в числа, а затем данные могут быть сохранены в виде векторов, матриц и тензоров. Именно здесь матричная алгебра становится полезной для управления этими векторами, матрицами и тензорами.

2) Матричная нотация: вы должны изучить матричную нотацию, поскольку данные обычно хранятся в виде массивов, поэтому при представлении больших наборов данных и манипулировании ими вам нужно будет выполнять операции с массивами. Понимание матричной нотации может помочь вам создавать более короткие и эффективные реализации, тем самым получая больше от алгоритмов машинного обучения. Кроме того, это поможет вам понять алгоритмы машинного обучения, описанные в учебниках и научных статьях.

3) Матричная факторизация. Вы должны изучить матричную факторизацию, потому что в машинном обучении и науке о данных вы обычно сталкиваетесь с огромными наборами данных с сотнями, тысячами и даже миллионами функций и атрибутов. Один из способов повысить способность обрабатывать большие объемы данных, с которыми вы столкнетесь, — это применить методы уменьшения размерности, и один из самых простых способов сделать это — матричная факторизация. Уменьшение размерности необходимо в любой модели машинного обучения. Фактически, большая часть текущих исследований в области разработки и оптимизации алгоритмов машинного обучения реализует матричную факторизацию.

4) Линейная алгебра для статистики. Вы должны изучить линейную алгебру для статистики, потому что матричные методы — это инструмент, который позволяет вам выражать статистические задачи более удобным и интуитивно понятным способом; настолько, что в науке о данных линейная алгебра рассматривается как совершенно необходимая часть разработки статистических моделей; прежде всего потому, что статистические модели последнего поколения обычно разрабатываются и моделируются матричным способом. Кроме того, некоторые понятия классической теории вероятностей (например, случайные процессы) сформулированы в матричной форме. Примером этого являются цепи Маркова; в котором вероятность достижения будущего состояния зависит только от текущего состояния, и эти изменения состояния упорядочены с использованием МАТРИЦЫ ПЕРЕХОДОВ или также называются МАТРИЦЕЙ ВЕРОЯТНОСТЕЙ.

Теперь, когда вы все это прочитали, у вас может возникнуть вопрос: «Где я могу всему этому научиться?» Не волнуйтесь, я скажу вам, в каких книгах вы это узнаете:

  • ОСНОВЫ ЛИНЕЙНОЙ АЛГЕБРЫ ДЛЯ МАШИННОГО ОБУЧЕНИЯ — ОТКРОЙТЕ МАТЕМАТИЧЕСКИЙ ЯЗЫК ДАННЫХ В PYTHON (Джейсон Браунли).
    Когда Браунли писал эту книгу, он намеревался помочь читатель рассматривает науку о данных и линейную алгебру как еще один набор инструментов, которые можно использовать на пути к мастерству машинного обучения. Имея это в виду, легко увидеть, что эта книга представляет собой очень полезный набор учебных пособий, обучающих линейной алгебре, необходимой для науки о данных и машинного обучения, а также; обучает основным библиотекам Python для линейной алгебры и статистики, необходимым для представления и анализа данных.
  • МАТРИЧНАЯ АЛГЕБРА, ПОЛЕЗНАЯ ДЛЯ СТАТИСТИКИ (Шейл Р. Сирл).
    Цель этой книги — дать читателям представление о матричной алгебре, полезной для работы с данными. анализ и статистика в целом. Достаточно прочесть название двух глав, чтобы понять и признать, что эта книга — настоящая жемчужина.
    C11: Матричная алгебра полноранговых линейных моделей (рассматривает применение линейной алгебры к моделям линейной регрессии).
    C13: Анализ сбалансированных линейных моделей с использованием прямых произведений матриц (показывает применение внутреннего произведения матриц к изучению сбалансированных линейных моделей).

Книги по линейной алгебре, которые я вам только что порекомендовал, были очень полезны для меня, но иногда я чувствовал, что мне нужно прислушаться к доброму голосу, который объяснил бы мне концепции и показал, как применить их на практике с помощью числовых вычислений. проблемы… Это ваш случай? ознакомьтесь с бесплатными курсами по следующим ссылкам:

ЭПИЛОГ

Если вы дошли до этого момента в моем посте, я поздравляю вас и благодарю за ваше терпение со мной. Как я уже говорил, этот пост, который вы только что прочитали, является лишь первой частью серии из 3 эпизодов, в которой я покажу вам, как стать специалистом по данным. В этом выпуске мы рассмотрели, какие знания вам нужны, чтобы стать специалистом по данным, и где их можно получить. В следующем выпуске я покажу вам, какие навыки вам нужно развить, чтобы стать специалистом по данным, и расскажу, где и как их можно приобрести.

Вам может быть интересно:
Наука о данных и инженерия данных: одно и то же? какая разница?