Просто краткое напоминание из предыдущей статьи — алгоритмы контролируемого обучения — это те, которые снабжены входными данными и помеченными выходными данными.
Проблемы, которые могут решить алгоритмы обучения с учителем, делятся на два основных типа:
1. Классификация
В задачах классификации есть данные, помеченные выходы которых находятся в дискретных группах/классах (категориальных).
Например, набор данных радужной оболочки. Это очень простой набор данных, содержащий пять столбцов.
Входные столбцы / функции:
· чашелистик — длина
· чашелистик — ширина
· лепесток — длина
· лепесток — ширина
Выходной столбец / целевой класс —
· класс
Данные, представленные в столбцах признаков, используются для классификации этих цветов. Вы можете посмотреть, как это делается в моем Jupyter Notebook.
2. Регрессия
В задачах регрессии есть данные, помеченные выходные данные которых представляют собой непрерывные числа/значения.
Например, набор данных о настольных играх. Этот набор данных состоит из нескольких функций, таких как тип, год публикации, максимальное количество игроков и т. д. Целевой столбец здесь — это средний рейтинг. Средний рейтинг может быть любым числом от 0 до 10, поэтому значения непрерывны. Данные, представленные в столбцах характеристик, используются для определения среднего рейтинга, который получит игра. Вы можете посмотреть, как это делается в моем Jupyter Notebook.
Наиболее распространенные и часто используемые алгоритмы контролируемого обучения включают в себя:
1. Наивный байесовский классификатор
8. Линейный дискриминантный анализ
Каждый из них будет обсуждаться в следующих постах, так что следите за обновлениями!