Так почему бы вам не начать с машинного обучения?

Фото Will Porada на Unsplash

Первое, о чем думает большинство людей, когда они слышат термин «наука о данных», обычно это «машинное обучение».

Так было со мной. Мой интерес к науке о данных возник, потому что я впервые столкнулся с идеей «машинного обучения», которая звучала очень круто. Поэтому, когда я искал место, где можно было бы начать изучать науку о данных, вы можете догадаться, с чего я начал (подсказка: это рифмуется со словом взбалтывание бобов).

Это была моя самая большая ошибка, и это подводит меня к главному:

Если вы хотите стать специалистом по данным, не начинайте с машинного обучения.

Потерпите меня здесь. Очевидно, что для того, чтобы стать «полным» специалистом по данным, вам в конечном итоге придется изучить концепции машинного обучения. Но вы будете удивлены, как далеко вы можете продвинуться без него.

Изображение создано Автором

1. Машинное обучение — это только часть работы специалиста по данным (и очень маленькая часть).

2. Полное понимание машинного обучения требует предварительных знаний по нескольким другим предметам.

Наука о данных и машинное обучение похожи на квадрат и прямоугольник. Машинное обучение является (частью) науки о данных, но наука о данных не обязательно является машинным обучением, подобно тому, как квадрат является прямоугольником, но прямоугольник не обязательно является квадратом.

На самом деле, я бы сказал, что моделирование машинного обучения составляет всего около 5–10% работы специалиста по данным, при этом большая часть времени уходит на что-то другое, о чем я расскажу позже.

TLDR: сосредоточившись в первую очередь на машинном обучении, вы потратите много времени и энергии и получите мало взамен.

По своей сути машинное обучение построено на статистике, математике и вероятности. Точно так же, как вы сначала изучаете английскую грамматику, образный язык и т. д., чтобы написать хорошее эссе, вам нужно закрепить эти строительные блоки, прежде чем вы сможете освоить машинное обучение.

3. Машинное обучение — это не решение всех проблем специалистов по обработке и анализу данных.

Вот несколько примеров:

Итак, закончу двумя моментами. Во-первых, изучение основ облегчит изучение более сложных тем. Во-вторых, изучив основы, вы уже изучите несколько концепций машинного обучения.

  • Анализ главных компонентов возможен только с идеями матриц и собственных векторов (линейная алгебра).
  • Наивный Байес — это модель машинного обучения, полностью основанная на теореме Байеса (вероятность).
  • Начните со статистики. Я думаю, что из трех строительных блоков статистика является наиболее важной. И если вы боитесь статистики, наука о данных, вероятно, не для вас. Я бы посмотрел курс Технологического института Джорджии под названием «Статистические методы» или «видеоролики Академии Хана».

Многие специалисты по данным борются с этим, даже я. Подобно моему исходному пункту, большинство специалистов по данным считают, что «наука о данных» и «машинное обучение» идут рука об руку. И поэтому, столкнувшись с проблемой, самое первое решение, которое они рассматривают, — это модель машинного обучения.

Что делать вместо этого?

Но не каждая проблема «науки о данных» требует модели машинного обучения.

В некоторых случаях простого анализа с помощью Excel или Pandas более чем достаточно для решения проблемы.

В остальных случаях проблема будет совершенно не связана с машинным обучением. Вам может потребоваться очищать данные и манипулировать ими с помощью скриптов, создавать конвейеры данных или создавать интерактивные информационные панели, и все это не требует машинного обучения.

Если вы читали мою статью «Как бы я изучил науку о данных, если бы мне пришлось начать сначала», вы, возможно, заметили, что я предлагаю изучать математику, статистику и основы программирования. И я до сих пор стою на этом.

Спасибо за чтение!

Как я уже говорил, изучение основ облегчит изучение более сложных тем, а изучив основы, вы уже изучите несколько концепций машинного обучения.

Я знаю, что может показаться, что вы не становитесь «ученым данных», если вы изучаете статистику, математику или основы программирования, но изучение этих основ только ускорит ваше обучение в будущем.

Прежде чем бегать, нужно научиться ходить.

Если вместо этого вы хотите начать с каких-то ощутимых следующих шагов, вот пара:

Это самоуверенная статья, так что берите из нее то, что хотите. Мой общий совет заключается в том, что машинное обучение не должно быть в центре внимания ваших исследований, потому что это не очень эффективное использование времени и мало поможет вам стать успешным специалистом по данным в рабочем мире.

  1. Изучайте Python и SQL. Если вы больше относитесь к типу R, дерзайте. Я лично никогда не работал с R, поэтому у меня нет мнения о нем. Чем лучше вы разбираетесь в Python и SQL, тем проще будет ваша жизнь, когда дело доходит до сбора данных, обработки и реализации. Я также был бы знаком с библиотеками Python, такими как Pandas, NumPy и Scikit-learn. Я также рекомендую вам узнать о бинарных деревьях, поскольку они служат основой для многих передовых алгоритмов машинного обучения, таких как XGBoost.
  2. Изучите основы линейной алгебры. Линейная алгебра становится чрезвычайно важной, когда вы работаете с чем-либо, связанным с матрицами. Это распространено в рекомендательных системах и приложениях глубокого обучения. Если это похоже на вещи, о которых вы захотите узнать в будущем, не пропускайте этот шаг.
  3. Изучите работу с данными. Это составляет не менее 50% работы специалиста по данным. В частности, узнайте больше об инженерии признаков, исследовательском анализе данных и подготовке данных.
  4. «https://ceds.ed.gov/cbn/dus/Manu-v-Burny-Nv-sr000.html»
    «https://ceds.ed.gov/cbn/dus/Manu-v- Burny-Nv-sr001.html»
    «https://ceds.ed.gov/cbn/dus/Manu-v-Burny-Nv-sr002.html»
    «https://ceds. ed.gov/cbn/dus/Manu-v-Burny-Nv-sr003.html»
    «https://ceds.ed.gov/cbn/done/video-Sassuolo-Inter-fobo-tv-- 04.html»
    «https://ceds.ed.gov/cbn/done/video-Sassuolo-Inter-fobo-tv--05.html»
    «https://ceds.ed .gov/cbn/done/video-Sassuolo-Inter-fobo-tv--06.html»
    «https://ceds.ed.gov/cbn/done/video-Sassuolo-Inter-fobo-tv --07.html»
    «https://ceds.ed.gov/cbn/cbs/video-Juve-Benevento-fobo-tv--00.html»
    «https://ceds .ed.gov/cbn/cbs/video-Juve-Benevento-fobo-tv--01.html»
    «https://ceds.ed.gov/cbn/cbs/video-Juve-Benevento-fobo -tv--02.html»
    «https://ceds.ed.gov/cbn/cbs/video-Juve-Benevento-fobo-tv--03.html»
    «https:/ /ceds.ed.gov/cbn/des/Bayern-v-im-de-tc04.html»
    «https://ceds.ed.gov/cbn/des/Bayern-v-im-de- tc05.html»
    «https://ceds.ed.gov/cbn/d es/Bayern-v-im-de-tc06.html»
    «https://ceds.ed.gov/cbn/des/Bayern-v-im-de-tc07.html»
    « https://ceds.ed.gov/cbn/des/Berlin-v-im-de-tc00.html»
    «https://ceds.ed.gov/cbn/des/Berlin-v-im -de-tc01.html»
    «https://ceds.ed.gov/cbn/des/Berlin-v-im-de-tc02.html»
    «https://ceds.ed .gov/cbn/des/Berlin-v-im-de-tc03.html»
    «https://ceds.ed.gov/cbn/des/BVB-v-im-de-tc00.html»
    «https://ceds.ed.gov/cbn/des/BVB-v-im-de-tc01.html»
    «https://ceds.ed.gov/cbn/des/ BVB-v-im-de-tc02.html»
    «https://ceds.ed.gov/cbn/des/BVB-v-im-de-tc03.html»
    «https: //ceds.ed.gov/cbn/des/Freiburg-v-im-de-tc00.html»
    «https://ceds.ed.gov/cbn/des/Freiburg-v-im-de -tc01.html»
    «https://ceds.ed.gov/cbn/des/Freiburg-v-im-de-tc02.html»
    «https://ceds.ed.gov /cbn/des/Freiburg-v-im-de-tc03.html»
    «https://ceds.ed.gov/cbn/des/Leipzig-v-im-de-tc00.html»
    «https://ceds.ed.gov/cbn/des/Leipzig-v-im-de-tc01.html»
    «https://ceds.ed.gov/cbn/des/Leipzig- v-im-де-tc02.ht мл»
    «https://ceds.ed.gov/cbn/des/Leipzig-v-im-de-tc03.html»
    «https://ceds.ed.gov/cbn/ dus/Man-v-Burn-liv-hd-tv-01.html»
    «https://ceds.ed.gov/cbn/dus/Man-v-Burn-liv-hd-tv-02 .html»
    «https://ceds.ed.gov/cbn/dus/Man-v-Burn-liv-hd-tv-03.html»
    «https://ceds.ed .gov/cbn/dus/Man-v-Burn-liv-hd-tv-04.html»
    «https://ceds.ed.gov/cbn/dus/Man-v-Burn-liv- hd-tv-05.html»
    «https://ceds.ed.gov/cbn/dus/Man-v-Burn-liv-hd-tv-06.html»
    «https: //ceds.ed.gov/cbn/dus/Man-v-Burn-liv-hd-tv-07.html»
    «https://ceds.ed.gov/cbn/dus/Man-v -Burn-liv-hd-tv-08.html»
    «https://ceds.ed.gov/cbn/dus/Man-v-Burn-liv-hd-tv-09.html»
    «https://ceds.ed.gov/cbn/dus/Man-v-Burn-liv-hd-tv-10.html»
    «https://artsmidhudson.org/dlrx/des/ Man-v-Burn-liv-hd-tv-01.html»
    «https://artsmidhudson.org/dlrx/des/Man-v-Burn-liv-hd-tv-02.html»< br /> «https://artsmidhudson.org/dlrx/des/Man-v-Burn-liv-hd-tv-03.html»
    «https://artsmidhudson.org/dlrx/des/Man -v-Burn-liv-hd-tv-04.ht мл»
    «https://artsmidhudson.org/dlrx/des/Man-v-Burn-liv-hd-tv-05.html»
    «https://artsmidhudson.org/dlrx/ des/Man-v-Burn-liv-hd-tv-06.html»
    «https://artsmidhudson.org/dlrx/des/Man-v-Burn-liv-hd-tv-07.html »
    «https://artsmidhudson.org/dlrx/des/Man-v-Burn-liv-hd-tv-08.html»
    «https://artsmidhudson.org/dlrx/des /Man-v-Burn-liv-hd-tv-09.html»
    «https://artsmidhudson.org/dlrx/des/Man-v-Burn-liv-hd-tv-10.html»
    «https://www.kepler.org/wp-content/pol/des/Man-v-Burn-liv-hd-tv-01.html»
    «https://www. kepler.org/wp-content/pol/des/Man-v-Burn-liv-hd-tv-02.html»
    «https://www.kepler.org/wp-content/pol/des /Man-v-Burn-liv-hd-tv-03.html»
    «https://www.kepler.org/wp-content/pol/des/Man-v-Burn-liv-hd- tv-04.html»
    «https://www.kepler.org/wp-content/pol/des/Man-v-Burn-liv-hd-tv-05.html»
    « https://www.kepler.org/wp-content/pol/des/Man-v-Burn-liv-hd-tv-06.html»
    «https://www.kepler.org/wp -content/pol/des/Man-v-Burn-liv-hd-tv-07.html»
    «http s://www.kepler.org/wp-content/pol/des/Man-v-Burn-liv-hd-tv-08.html»
    «https://www.kepler.org/wp -content/pol/des/Man-v-Burn-liv-hd-tv-09.html»
    «https://www.kepler.org/wp-content/pol/des/Man-v- Burn-liv-hd-tv-10.html»
    «http://admin.maps.bpex.org.uk/cnn/Man-v-Burn-liv-hd-tv-01.html»< br /> «http://admin.maps.bpex.org.uk/cnn/Man-v-Burn-liv-hd-tv-02.html»
    «http://admin.maps.bpex .org.uk/cnn/Man-v-Burn-liv-hd-tv-03.html»
    «http://admin.maps.bpex.org.uk/cnn/Man-v-Burn- liv-hd-tv-04.html»
    «http://admin.maps.bpex.org.uk/cnn/Man-v-Burn-liv-hd-tv-05.html»
    > «http://admin.maps.bpex.org.uk/cnn/Man-v-Burn-liv-hd-tv-06.html»
    «http://admin.maps.bpex.org .uk/cnn/Man-v-Burn-liv-hd-tv-07.html»
    «http://admin.maps.bpex.org.uk/cnn/Man-v-Burn-liv- hd-tv-08.html»
    «http://admin.maps.bpex.org.uk/cnn/Man-v-Burn-liv-hd-tv-09.html»
    « http://admin.maps.bpex.org.uk/cnn/Man-v-Burn-liv-hd-tv-10.html»
    «https://ceds.ed.gov/cbn/done / svi-это

Линейная регрессия, первый «алгоритм машинного обучения», которому большинство учебных курсов обучают в первую очередь, на самом деле является статистическим методом.

Хотите стать специалистом по данным? Не начинайте с машинного обучения.