Просто краткое напоминание из предыдущей статьи — алгоритмы контролируемого обучения — это те, которые снабжены входными данными и помеченными выходными данными.

Проблемы, которые могут решить алгоритмы обучения с учителем, делятся на два основных типа:

1. Классификация

В задачах классификации есть данные, помеченные выходы которых находятся в дискретных группах/классах (категориальных).

Например, набор данных радужной оболочки. Это очень простой набор данных, содержащий пять столбцов.

Входные столбцы / функции:

· чашелистик — длина

· чашелистик — ширина

· лепесток — длина

· лепесток — ширина

Выходной столбец / целевой класс —

· класс

Данные, представленные в столбцах признаков, используются для классификации этих цветов. Вы можете посмотреть, как это делается в моем Jupyter Notebook.

2. Регрессия

В задачах регрессии есть данные, помеченные выходные данные которых представляют собой непрерывные числа/значения.

Например, набор данных о настольных играх. Этот набор данных состоит из нескольких функций, таких как тип, год публикации, максимальное количество игроков и т. д. Целевой столбец здесь — это средний рейтинг. Средний рейтинг может быть любым числом от 0 до 10, поэтому значения непрерывны. Данные, представленные в столбцах характеристик, используются для определения среднего рейтинга, который получит игра. Вы можете посмотреть, как это делается в моем Jupyter Notebook.

Наиболее распространенные и часто используемые алгоритмы контролируемого обучения включают в себя:

1. Наивный байесовский классификатор

2. Линейная регрессия

3. Логистическая регрессия

4. К ближайшим соседям

5. Дерево решений

6. Случайный лес

7. Машина опорных векторов

8. Линейный дискриминантный анализ

Каждый из них будет обсуждаться в следующих постах, так что следите за обновлениями!