Мнение
Хотите стать специалистом по данным? Не начинайте с машинного обучения.
Самое большое заблуждение начинающих специалистов по данным
Первое, о чем думает большинство людей, когда они слышат термин «наука о данных», - это обычно «машинное обучение».
Так было со мной. Мой интерес к науке о данных вспыхнул, потому что я впервые столкнулся с идеей «машинного обучения», которая показалась мне действительно крутой. Поэтому, когда я искал место, чтобы начать изучать науку о данных, вы можете догадаться, с чего я начал (подсказка: это рифмуется со словом bean churning).
Это была моя самая большая ошибка, и это подводит меня к основной мысли:
Если вы хотите стать специалистом по обработке данных, не начинайте с машинного обучения.
Потерпите меня здесь. Очевидно, чтобы стать «полноценным» специалистом по обработке данных, вам в конечном итоге нужно будет изучить концепции машинного обучения. Но вы удивитесь, как далеко вы сможете продвинуться без этого.
Так почему бы вам не начать с машинного обучения?
1. Машинное обучение - это только одна часть специалиста по данным (и очень небольшая часть).
Наука о данных и машинное обучение похожи на квадрат и прямоугольник. Машинное обучение является (частью) науки о данных, но наука о данных не обязательно является машинным обучением, подобно тому, как квадрат является прямоугольником, но прямоугольник не обязательно является квадратом.
На самом деле, я бы сказал, что моделирование машинного обучения составляет лишь около 5–10% работы специалиста по данным, когда большую часть времени он проводит в другом месте, о чем я расскажу позже.
TL; DR: сосредоточившись в первую очередь на машинном обучении, вы потратите много времени и энергии и мало получите взамен.
2. Для полного понимания машинного обучения сначала необходимы предварительные знания по нескольким другим предметам.
По своей сути машинное обучение построено на статистике, математике и вероятности. Точно так же, как вы впервые изучаете английскую грамматику, образный язык и т. Д., Чтобы написать хорошее эссе, вы должны иметь эти строительные блоки в камне, прежде чем вы сможете изучать машинное обучение.
Приведу несколько примеров:
- Линейная регрессия, первый «алгоритм машинного обучения», которому в первую очередь обучают большинство учебных курсов, на самом деле является статистическим методом.
- Анализ главных компонент возможен только с идеями матриц и собственных векторов (линейная алгебра)
- Наивный Байес - это модель машинного обучения, полностью основанная на теореме Байеса (вероятность).
Итак, в заключение я хотел бы сказать два момента. Во-первых, изучение основ облегчит изучение более сложных тем. Во-вторых, изучив основы, вы уже усвоите несколько концепций машинного обучения.
3. Машинное обучение - это не ответ на все проблемы специалистов по данным.
Многие специалисты по данным борются с этим, даже я. Как и в моем первоначальном пункте, большинство специалистов по данным считают, что «наука о данных» и «машинное обучение» идут рука об руку. Итак, когда они сталкиваются с проблемой, первое решение, которое они рассматривают, - это модель машинного обучения.
Но не для каждой проблемы науки о данных требуется модель машинного обучения.
В некоторых случаях простого анализа с помощью Excel или Pandas более чем достаточно для решения возникшей проблемы.
В остальных случаях проблема будет совершенно не связана с машинным обучением. Вам может потребоваться очистить данные и управлять ими с помощью скриптов, построить конвейеры данных или создать интерактивные информационные панели, все из которых не требуют машинного обучения.
Что делать вместо этого?
Если вы читали мою статью Как бы я изучил науку о данных, если бы мне пришлось начинать заново, вы, возможно, заметили, что я предлагал изучить математику, статистику и основы программирования. И я до сих пор придерживаюсь этого мнения.
Как я уже говорил, изучение основ облегчит изучение более сложных тем, а, изучив основы, вы уже усвоите несколько концепций машинного обучения.
Я знаю, что вам может показаться, что вы не прогрессируете в «специалисте по данным», если изучаете статистику, математику или основы программирования, но изучение этих основ только ускорит ваше обучение в будущем.
Вы должны научиться ходить, прежде чем сможете бегать.
Если вместо этого вы хотите начать с каких-то осязаемых следующих шагов, вот пара:
- Начните со статистики. Я считаю, что из трех строительных блоков наиболее важной является статистика. И если вы боитесь статистики, наука о данных, вероятно, не для вас. Я бы посмотрел курс Технологического института Джорджии под названием Статистические методы или Видеосерии Академии Хана.
- Изучите Python и SQL. Если вы больше относитесь к категории R, дерзайте. Я лично никогда не работал с R, поэтому не имею о нем мнения. Чем лучше вы владеете Python и SQL, тем легче будет вам жизнь, когда дело касается сбора, обработки и реализации данных. Я также был бы знаком с библиотеками Python, такими как Pandas, NumPy и Scikit-learn. Я также рекомендую вам узнать о двоичных деревьях, поскольку они служат основой для многих сложных алгоритмов машинного обучения, таких как XGBoost.
- Изучите основы линейной алгебры. Линейная алгебра становится чрезвычайно важной, когда вы работаете с чем-либо, связанным с матрицами. Это распространено в системах рекомендаций и приложениях для глубокого обучения. Если это похоже на то, о чем вы захотите узнать в будущем, не пропускайте этот шаг.
- Научитесь манипулировать данными. Это составляет не менее 50% работы специалиста по данным. В частности, узнайте больше о разработке функций, исследовательском анализе данных и подготовке данных.
Спасибо за прочтение!
Это самоуверенная статья, так что берите от нее все, что хотите. Мой общий совет заключается в том, что машинное обучение не должно быть в центре ваших исследований, потому что это не очень полезное использование времени и мало что поможет вам стать успешным специалистом по данным в рабочем мире.
С учетом сказанного, я желаю вам удачи в ваших начинаниях!
Не знаете, что читать дальше? Я подобрала для вас другую статью:
Теренс Шин
- Если вам понравилось, подписывайтесь на меня на Medium, чтобы узнать больше
- Подпишитесь на мою рассылку здесь!
- Давайте подключимся к LinkedIn
- Заинтересованы в сотрудничестве? Загляните на мой сайт.