Мнение

Хотите стать специалистом по данным? Не начинайте с машинного обучения.

Самое большое заблуждение начинающих специалистов по данным

Первое, о чем думает большинство людей, когда они слышат термин «наука о данных», - это обычно «машинное обучение».

Так было со мной. Мой интерес к науке о данных вспыхнул, потому что я впервые столкнулся с идеей «машинного обучения», которая показалась мне действительно крутой. Поэтому, когда я искал место, чтобы начать изучать науку о данных, вы можете догадаться, с чего я начал (подсказка: это рифмуется со словом bean churning).

Это была моя самая большая ошибка, и это подводит меня к основной мысли:

Если вы хотите стать специалистом по обработке данных, не начинайте с машинного обучения.

Потерпите меня здесь. Очевидно, чтобы стать «полноценным» специалистом по обработке данных, вам в конечном итоге нужно будет изучить концепции машинного обучения. Но вы удивитесь, как далеко вы сможете продвинуться без этого.

Так почему бы вам не начать с машинного обучения?

1. Машинное обучение - это только одна часть специалиста по данным (и очень небольшая часть).

Наука о данных и машинное обучение похожи на квадрат и прямоугольник. Машинное обучение является (частью) науки о данных, но наука о данных не обязательно является машинным обучением, подобно тому, как квадрат является прямоугольником, но прямоугольник не обязательно является квадратом.

На самом деле, я бы сказал, что моделирование машинного обучения составляет лишь около 5–10% работы специалиста по данным, когда большую часть времени он проводит в другом месте, о чем я расскажу позже.

TL; DR: сосредоточившись в первую очередь на машинном обучении, вы потратите много времени и энергии и мало получите взамен.

2. Для полного понимания машинного обучения сначала необходимы предварительные знания по нескольким другим предметам.

По своей сути машинное обучение построено на статистике, математике и вероятности. Точно так же, как вы впервые изучаете английскую грамматику, образный язык и т. Д., Чтобы написать хорошее эссе, вы должны иметь эти строительные блоки в камне, прежде чем вы сможете изучать машинное обучение.

Приведу несколько примеров:

  • Линейная регрессия, первый «алгоритм машинного обучения», которому в первую очередь обучают большинство учебных курсов, на самом деле является статистическим методом.
  • Анализ главных компонент возможен только с идеями матриц и собственных векторов (линейная алгебра)
  • Наивный Байес - это модель машинного обучения, полностью основанная на теореме Байеса (вероятность).

Итак, в заключение я хотел бы сказать два момента. Во-первых, изучение основ облегчит изучение более сложных тем. Во-вторых, изучив основы, вы уже усвоите несколько концепций машинного обучения.

3. Машинное обучение - это не ответ на все проблемы специалистов по данным.

Многие специалисты по данным борются с этим, даже я. Как и в моем первоначальном пункте, большинство специалистов по данным считают, что «наука о данных» и «машинное обучение» идут рука об руку. Итак, когда они сталкиваются с проблемой, первое решение, которое они рассматривают, - это модель машинного обучения.

Но не для каждой проблемы науки о данных требуется модель машинного обучения.

В некоторых случаях простого анализа с помощью Excel или Pandas более чем достаточно для решения возникшей проблемы.

В остальных случаях проблема будет совершенно не связана с машинным обучением. Вам может потребоваться очистить данные и управлять ими с помощью скриптов, построить конвейеры данных или создать интерактивные информационные панели, все из которых не требуют машинного обучения.

Что делать вместо этого?

Если вы читали мою статью Как бы я изучил науку о данных, если бы мне пришлось начинать заново, вы, возможно, заметили, что я предлагал изучить математику, статистику и основы программирования. И я до сих пор придерживаюсь этого мнения.

Как я уже говорил, изучение основ облегчит изучение более сложных тем, а, изучив основы, вы уже усвоите несколько концепций машинного обучения.

Я знаю, что вам может показаться, что вы не прогрессируете в «специалисте по данным», если изучаете статистику, математику или основы программирования, но изучение этих основ только ускорит ваше обучение в будущем.

Вы должны научиться ходить, прежде чем сможете бегать.

Если вместо этого вы хотите начать с каких-то осязаемых следующих шагов, вот пара:

  1. Начните со статистики. Я считаю, что из трех строительных блоков наиболее важной является статистика. И если вы боитесь статистики, наука о данных, вероятно, не для вас. Я бы посмотрел курс Технологического института Джорджии под названием Статистические методы или Видеосерии Академии Хана.
  2. Изучите Python и SQL. Если вы больше относитесь к категории R, дерзайте. Я лично никогда не работал с R, поэтому не имею о нем мнения. Чем лучше вы владеете Python и SQL, тем легче будет вам жизнь, когда дело касается сбора, обработки и реализации данных. Я также был бы знаком с библиотеками Python, такими как Pandas, NumPy и Scikit-learn. Я также рекомендую вам узнать о двоичных деревьях, поскольку они служат основой для многих сложных алгоритмов машинного обучения, таких как XGBoost.
  3. Изучите основы линейной алгебры. Линейная алгебра становится чрезвычайно важной, когда вы работаете с чем-либо, связанным с матрицами. Это распространено в системах рекомендаций и приложениях для глубокого обучения. Если это похоже на то, о чем вы захотите узнать в будущем, не пропускайте этот шаг.
  4. Научитесь манипулировать данными. Это составляет не менее 50% работы специалиста по данным. В частности, узнайте больше о разработке функций, исследовательском анализе данных и подготовке данных.

Спасибо за прочтение!

Это самоуверенная статья, так что берите от нее все, что хотите. Мой общий совет заключается в том, что машинное обучение не должно быть в центре ваших исследований, потому что это не очень полезное использование времени и мало что поможет вам стать успешным специалистом по данным в рабочем мире.

С учетом сказанного, я желаю вам удачи в ваших начинаниях!

Не знаете, что читать дальше? Я подобрала для вас другую статью:



Теренс Шин