Узнайте больше о машинном обучении

Это краткое введение в машинное обучение. Для тех, кто хочет изучать машинное обучение, но не знает, что они будут изучать, я пишу здесь основные заголовки с кратким объяснением, основанным на том, что я узнал из Курса машинного обучения Coursera, проводимого под руководством г-на Эндрю Нг

Что такое машинное обучение

«Дайте компьютерам возможность учиться без явного программирования», - Артур Самуэль

Мы можем определить машинное обучение более формальным образом, который предоставил Том Митчелл, это способность компьютеров учиться на опыте E по отношению к некоторому классу задач T и показатель эффективности P. Например, когда E наблюдает, как вы помечаете электронные письма как спам или нет, T классифицирует электронные письма как спам или нет, а P - это количество правильно классифицированных писем.

Некоторые примеры машинного обучения, чтобы лучше понять, для чего оно используется: создание автономного вертолета, распознавание почерка, обработка естественного языка (NLP), которая представляет собой способность ИИ понимать языки, компьютерное зрение (ИИ со способностью понимать изображения), продукты рекомендации,…

Существует много типов методов машинного обучения. В общем, любую задачу машинного обучения можно отнести к одной из двух широких классификаций: Обучение с учителем и Обучение без учителя.

Контролируемое обучение

В обучении с учителем даются «правильные ответы». Нам дан набор данных, в котором у нас уже есть правильный вывод, что означает, что у нас есть связь между вводом и выводом.

Контролируемые проблемы можно разделить на проблемы регрессии и проблемы классификации. Проблемы регрессии - это когда мы пытаемся предсказать непрерывный результат, другими словами, мы пытаемся отобразить входные переменные в непрерывную функцию. Например: дают данные об особенностях домов и пытаются спрогнозировать цену дома.

В задаче классификации мы вместо этого пытаемся предсказать дискретный результат, что означает, что мы сопоставляем входные переменные с дискретными категориями. например : Для пациента с опухолью, основываясь на характеристиках данных (размер опухоли, возраст, толщина комка, однородность размера клеток и т. Д.), Предскажите, является ли опухоль злокачественной или доброкачественной.

Среди алгоритмов, используемых для лечения контролируемого обучения, у нас есть линейная регрессия для задач регрессии и логистическая регрессия, нейронная сеть и SVM для задач классификации. Наш выбор, какой из них использовать, зависит от самой проблемы, каждый решает проблему по-своему, но у большинства из них есть общий подход. Каждый алгоритм имеет собственное представление модели, которое представляет собой функцию, которая сопоставляет входные переменные с выходными результатами, называемую «функцией гипотезы». Эти алгоритмы позволяют измерить, насколько хорошо его функция гипотезы соответствует данным, используя функцию стоимости, которая измеряет точность функции гипотезы, иначе ее называют «функцией квадрата ошибки» или «средним значением». квадрат ошибки », и каждый алгоритм работает над ее минимизацией. Кроме того, каждый алгоритм должен оценивать параметры в функции гипотезы, используя, например, алгоритм градиентного спуска или любой расширенный метод оптимизации, который выбирает значения параметров таким образом, чтобы минимизировать функция стоимости.

Неконтролируемое обучение

Обучение без учителя используется для построения моделей, которые помогают нам лучше понимать наши данные. В неконтролируемых задачах у нас нет правильных выходных данных в нашем наборе данных, а это означает, что входные данные не помечены. Среди алгоритмов неконтролируемого обучения у нас есть алгоритмы кластеризации, используемые для группировки данных в группы, которые так или иначе похожи или связаны разными переменными, например, дают набор из тысячи разных генов, и находят способ автоматически Сгруппируйте эти гены в похожие группы. Наиболее распространенными алгоритмами кластеризации являются: K-среднее, PCA и обнаружение аномалий. Также есть алгоритмы некластеризации, например, «алгоритм коктейльной вечеринки», который позволяет нам находить структуру в хаотической среде, например определять отдельные голоса и музыку из сетки звуков на коктейльной вечеринке. .

Руководство по созданию системы машинного обучения

После того, как вы познакомитесь с алгоритмами машинного обучения, теперь наступает та часть, где вы работаете над оптимизацией производительности систем машинного обучения. Для этого существует слишком много способов, но вам нужно иметь в виду, что Лучше проанализировать производительность и понять, как она работает, чтобы знать, на какую часть конвейера системы вы должны потратить больше всего времени, пытаясь улучшить и на чем сосредоточить свои усилия. Для этого существует так называемый анализ потолка, который помогает вам определить, используя точность каждой части, ту часть, которая значительно улучшит производительность вашей программы и стоит потратить больше ресурсов на ее разработку. Когда вы знаете, какую часть нужно улучшить, пора ответить на вопрос как это сделать? Это можно сделать, оценив ваши алгоритмы обучения с помощью нескольких методов, мы можем назвать некоторые из них: Диагностика предвзятости по сравнению с Дисперсия, регуляризация, кривые обучения и анализ ошибок.

Специальные приложения

Существует множество примеров алгоритмов машинного обучения, которые вы можете использовать каждый день, не зная, в Интернете, например, Recommender Systems, которые в последнее время все чаще используются на крупных веб-сайтах, таких как Amazon или Netflix, это алгоритм обучения, который может предсказывать оценка продуктов пользователем, чтобы дать пользователю больше рекомендаций, основанных на содержании.
Существует также то, что мы называем крупномасштабным машинным обучением, которое в основном представляет собой алгоритмы, работающие с большими данными Наборы. По сравнению с тем, что было несколько лет назад, алгоритмы обучения работают намного лучше, и это из-за большого количества данных, предоставляемых в наши дни, такое огромное количество данных обеспечивает лучшую производительность алгоритмов, вот что привело к выводу:

Выигрывает не тот, у кого лучший алгоритм. Это у кого больше всего данных

В конце концов, вы можете найти много слов, используемых в этой статье, неоднозначными, но как только вы начнете изучать машинное обучение, вы сможете больше узнать об этих терминах и не потеряетесь среди всех новых знаний.

Курс Coursera по машинному обучению: https://www.coursera.org/learn/machine-learning/home/welcome

Погрузитесь глубже: https://medium.com/@ageitgey/machine-learning-is-fun-80ea3ec3c471

Узнайте больше о машинном обучении