Эта статья о машинном обучении, и это третья сессия курса машинного обучения в Стэнфордском университете профессора Эндрю Нг. Речь идет о параметрическом и непараметрическом алгоритме, локально взвешенной линейной регрессии и алгоритме классификации.

Когда мы хотим предсказать результат на основе тренировочного набора, количество функций очень важно для получения более точных результатов. Количество признаков определяет степень подгонки полинома. Если мы не выберем правильное количество функций, мы можем столкнуться с проблемами: недообучение и переоснащение. При недостаточном количестве признаков недостаточно для четкого отражения структуры данных, а при переоснащении количество признаков превышает требуемое, поэтому модель выходит из строя за пределами обучающего набора. Следовательно, выбор признаков важен для обеспечения хорошей производительности алгоритма обучения.

Алгоритм параметрического обучения (PLA)

Линейное выражение является примером алгоритма параметрического обучения. Алгоритм параметрического обучения определяется как алгоритм с фиксированным числом параметров, которые соответствуют данным.

Непараметрический алгоритм обучения (NPLA)

Алгоритм непараметрического обучения — это алгоритм, в котором количество параметров соответствует M: размер обучающей выборки.

Локально взвешенная регрессия (LWR)

Локально взвешенная регрессия, имеющая несколько других названий: лёсс и лоусс. При использовании LWR выбор функций менее критичен. LWR действует локально, и чтобы найти Y для конкретного X, он рассматривает определенную окрестность вокруг данного X и локально использует линейную регрессию для прогнозирования результата.

Когда мы применяем локально взвешенную линейную регрессию к набору данных, мы должны локально провести прямую линию, чтобы сделать прогноз. Каждый раз, когда мы просим алгоритм сделать прогноз, нам нужно запускать новую процедуру подбора в той позиции, где мы пытаемся сделать прогноз. Если мы сделаем это для каждой точки вдоль оси X, то локально взвешенная регрессия сможет отслеживать результаты, такие как нелинейная кривая.

Локально взвешенная регрессия — это дорогостоящий алгоритм для больших наборов обучающих данных, потому что каждый раз, когда мы хотим сделать прогноз, нам нужно снова подгонять прямую линию к огромному набору данных. Есть несколько способов гораздо более эффективно подобрать модель для больших наборов обучающих данных.

Алгоритм классификации

В отличие от алгоритма регрессии, который предполагает Y как непрерывное значение, в алгоритме классификации это будет дискретное значение.

Одной из форм классификации является обязательная классификация, где Y принимает только два значения. Например, в медицинской диагностике мы пытаемся на основе некоторых признаков решить, есть ли у пациента заболевание или нет. Фильтр спама электронной почты — еще один пример классификации привязок. Так что в таких задачах Y принимает только два значения: 0 или Единица, Да или Нет и так далее.

Применение линейной регрессии к задачам классификации и проведение прямой линии через обучающую выборку может соответствовать им, и иногда это будет работать нормально. Но в целом применять линейную регрессию к задачам классификации — плохая идея.

Алгоритм перцептрона

В этом алгоритме выходы похожи на ступенчатую функцию и равны нулю или единице.