Среди новых студентов, изучающих науку о данных, часто возникает путаница в отношении разницы между классификацией и регрессией в машинном обучении, а также отсутствует понимание того, какую технику использовать для какой конкретной задачи.

Классификация и регрессия — это алгоритмы контролируемого обучения, которые работают с помеченными наборами данных и используются для прогнозирования в машинном обучении. Оба эти метода относятся к прогнозному моделированию.
Разработка моделей, использующих исторические данные для создания новых прогнозов, называется прогностическим моделированием. Это математическая задача, которая аппроксимирует функцию отображения (F) от входа (x) до выхода (y). Обычно мы называем это задачей аппроксимации функции.

Есть две основные задачи аппроксимации функций. т.е. классификация и регрессия.

Классификация

Классификация - это тип прогнозирующего моделирования, который аппроксимирует функцию отображения от входных данных (x) до дискретной переменной (y). Этот процесс включает в себя поиск функции, которая разделит наборы данных на разные классы на основе параметров обучения. Он фактически классифицирует данные на основе их изучения из обучающего набора данных.

Пример. Обнаружение нежелательной почты — один из лучших примеров классификации. Модель, обученная на миллионах электронных писем, классифицирует новые электронные письма как «spam» или «не спам». После выявления спама электронное письмо отправляется в папку со спамом.
предположим, спамовому письму можно присвоить вероятности 0,1 и «не спам» 0,9. Эти вероятности можно преобразовать в метку класса, выбрав метку «не спам» на основе ее наивысшей прогнозируемой вероятности.

Наиболее распространенной метрикой, используемой для классификации, является точность, мы можем найти ее, например, очень простым способом.

Точность_классификации = правильные_прогнозы / общее количество_прогнозов * 100
точность = 7/10* 100
точность = 70%

Типы алгоритмов классификации:

  • Логистическая регрессия
  • K-ближайшие соседи
  • Опорные векторные машины
  • Ядро SVM
  • Наивный байесовский
  • Классификация дерева решений
  • Случайная классификация леса

Регрессия

регрессия - это тип прогнозирующего моделирования, который аппроксимирует функцию отображения от входных данных (x) до непрерывной переменной (y). Непрерывный вывод относится к переменной, содержащей действительное значение, такое как значение с плавающей запятой или целое число, которые часто являются количествами, такими как размеры и количества.

Пример.прогнозирование погоды выполняется с использованием алгоритма регрессии, в котором модель обучается на прошлых данных, которые могут предсказывать погоду в будущем.
Другим примером является предсказание цены продажи дома в диапазоне от 200 000 до 300 000 долларов.

Поскольку алгоритм регрессии предсказывает количество, метрика должна найти ошибку в этих предсказаниях. Мы используем среднеквадратичную ошибку, сокращенно RMSE.

Например, если регрессионная модель сделала 2 прогноза, 2,5, где ожидаемое значение равно 2,0, и другое, равное 4,3, и ожидаемое значение равно 4,0, то RMSE будет следующим:

RMSE = sqrt(среднее(ошибка²))
RMSE = sqrt(((2,0–2,5)² + (4,0–4,3)²) / 2)
RMSE = sqrt((0,25 + 0,09) / 2 )
RMSE = sqrt(0,17)
RMSE = 0,412

Типы алгоритма регрессии:

  • Регрессия дерева решений
  • Случайная лесная регрессия
  • Простая линейная регрессия
  • Множественная линейная регрессия
  • Полиномиальная регрессия
  • Опорная векторная регрессия

Разница между классификацией и регрессией

  1. В регрессии выходная переменная должна иметь непрерывный характер или иметь реальное значение. В классификации выходная переменная должна быть дискретным значением.
  2. Алгоритм регрессии сопоставляет входное значение (x) с непрерывной выходной переменной (y). В то время как алгоритм классификации сопоставляет входное значение (x) с дискретной выходной переменной (y).
  3. Модели регрессии используются с непрерывными данными. Модели классификации используются с дискретными данными.
  4. Алгоритм регрессии пытается найти наиболее подходящую линию, чтобы более точно предсказать результат. Алгоритм классификации пытается найти границу решения, чтобы разделить набор данных на разные классы.
  5. Модели регрессии решают задачи регрессии, такие как прогнозирование цен на жилье, прогноз погоды и т. д. Модели классификации могут решать задачи классификации, такие как идентификация распознавания речи, идентификация раковых клеток, спам-сообщений и т. д.
  6. Алгоритм регрессии делится на линейную и нелинейную регрессию. Алгоритмы классификации делятся на двоичный классификатор и многоклассовый классификатор.

Спасибо за прочтение ;). Ставьте лайки и подписывайтесь, если статья была вам полезна.