Мнение

Что нужно знать перед тем, как пройти курс машинного обучения Стэнфордского университета

Курс машинного обучения от Andrew Ng и Stanford Review

В этой статье я выскажу свое мнение о курсе Machine Learning by Stanford. Если вы еще не знаете об этом курсе, это один из самых популярных курсов машинного обучения, созданный Эндрю Нг, соучредителем Coursera и основателем deeplearning.ai.

Как я скажу позже, этот курс - лучший выбор для новичков, но все в нашем мире имеет недостатки. Я попытался заметить некоторые из них и прикрепить ссылки на источники, изучая которые, вы должны иметь более полное представление о машинном обучении и науке о данных.

Главный недостаток - что нужно понимать

Несмотря на все прелести этого курса, он устарел. Это не прямой недостаток курса, но прошло уже почти 11 лет! (курс выпущен в 2011 году). За это время многое изменилось. А если бы курс был посвящен глубокому обучению (или какой-то другой быстро развивающейся области), он полностью потерял бы свою актуальность.

Но поскольку этот курс посвящен основам, почти все в нем остается актуальным. За исключением, может быть, историй о приложениях для машинного обучения - теперь они выглядят немного забавно. Инструменты для решения практических задач в настоящее время совершенно другие. Все потому, что основные достижения в области компьютерного зрения и обработки естественного языка были достигнуты после 2011 года (и основными примерами курса являются беспилотный автомобиль и классификатор спама по электронной почте).

Это абсолютно нормальная ситуация - все идет вперед, и через 10 лет современные курсы тоже будут выглядеть устаревшими. В этом курсе рассказывается об основах, которые никогда не изменятся (по крайней мере, мы так думаем), но стоит понимать, что подходы и инструменты для решения практических задач постоянно меняются. Для кого-то это может быть очевидным, но сбивать с толку новичков.

Техническая сторона заключается в том, что качество звука иногда оставляет желать лучшего. Однако если заниматься в наушниках в тихом месте, то все хорошо слышно. Также доступны субтитры.

Используйте Python вместо Octave или MATLAB

Насколько вам известно, еще одним серьезным недостатком этого курса является то, что он не использует Python. Назначения должны выполняться только с использованием Octave или MATLAB.

Несмотря на аргументы авторов курса (что Octave / MATLAB проще для новичков, чем осмысленные языки программирования), эти языки не имеют ничего общего с практическим применением Data Science. Итак, если вы хотите углубиться в науку о данных, лучше сразу выучить Python.

Я сразу решил перевести этот курс на Python. Но прежде чем перейти к моей собственной реализации Python, я решил проверить, делал ли это кто-нибудь до меня. Конечно, было. Вы можете использовать следующую ссылку, чтобы пройти этот курс с использованием Python.



Лично я хочу сказать огромное спасибо авторам этих постов - они проделали действительно большую работу.

Чему вас не научит курс

Курс сознательно подавляет многие аспекты машинного обучения. Я использую слово «сознательно», потому что уверен, что Эндрю Нг и команда, разработавшая курс, знакомы со всеми приведенными ниже концепциями. Это было сделано специально, чтобы упростить курс и сделать его более удобным для начинающих. Тем не менее, я думаю, что очень важно предоставить дополнительные материалы для изучения мира Data Science.

Вот несколько примеров, изучая которые, вы должны иметь более полное представление о машинном обучении и науке о данных. Я не говорю здесь об упоминании CNN, RNN и других аспектов глубокого обучения, потому что это действительно продвинутый уровень. Но я думаю, что этот список может помочь вам получить более общее представление о том, что есть в Data Science.

Ансамблевое обучение

В курсе вообще ничего не говорится о методах ансамблевого обучения - бэггинг, случайный лес, бустинг, наложение. и т. д. На мой взгляд, это самое большое упущение, так как нейросеть в курсе воспринимается «сама по себе», а не как ансамбль слабых классификаторов.



Что такое ансамблевое обучение?
Эта статья является частью статьи« Демистификация ИИ
, серии статей, которые (пытаются) устранить неоднозначность жаргона и мифов, окружающих… bdtechtalks. com »





Категориальные переменные

Ничего не сказано о категориальных и других типах переменных, хотя разработка функций - важная часть работы в области науки о данных.





Кластеризация

Только кластеризация K-средних считается алгоритмом кластеризации.



Уменьшение размерности

Только PCA рассматривается как метод уменьшения размерности. Не говоря уже о том, что есть совершенно разные подходы, после курса у вас может сложиться впечатление, что использование PCA для визуализации данных - хорошая идея.



Обнаружение аномалий

В курсе Эндрю Нг говорит об обнаружении аномалий, хотя на самом деле он говорит об обнаружении новизны - немного другой задаче. Эта задача решается с помощью подхода оценки плотности в курсе, а другие подходы вообще не рассматриваются.



Мои статьи, которые могут быть вам полезны

Вы также можете использовать мои шпаргалки в качестве списков концепций науки о данных, чтобы понять, что у каждой задачи есть несколько способов решения:

Резюме

Несмотря на все эти недостатки, этот курс по-прежнему остается лучшим выбором для начала изучения науки о данных и машинного обучения. Достоинства этого курса перекрывают все недостатки:

  • Талант и опыт преподавания Эндрю Нг позволяют объяснять сложные вещи простыми словами. В частности, этот курс, на мой взгляд, является лучшим объяснением трюка с ядром и концепций выбора модели (предотвращение недостаточного / переобучения).
  • Не забывайте, что материалы курса полностью бесплатны и вам нужно заплатить только за сертификат (стандартная плата Coursera - около 80 долларов США).
  • Доступны субтитры на более чем 10 языках. Это позволяет вам учиться где угодно, даже если вы плохо владеете английским.
  • Хотя и не напрямую, вы можете использовать Python для выполнения заданий курса.

Если вы давно хотели погрузиться в мир науки о данных, но не решались, возможно, сейчас лучшее время для записи на курс и получения уникального опыта.

Ссылка



Надеюсь, эти материалы были вам полезны. Если у вас есть вопросы или комментарии, буду рад любым отзывам. Свяжитесь со мной через LinkedIn, GitLab или по электронной почте - [email protected].