Контролируемое обучение

Обучение с учителем — это метод понимания функции, которая имеет входные данные (функции) и выходные данные (метка/цель). В математике мы обычно называем их x(зависимая переменная) и y(независимая переменная).

В соответствии с характеристикой целевой переменной мы можем классифицировать проблему науки о данных как регрессию или классификацию.

# Регрессия

Регрессия предсказывает цель, которая является непрерывным числом. (экс/ акции, температура, цена продажи) Существует множество различных моделей, но мы рассмотрим базовую модель регрессии.

Линейная регрессия

Самая простая регрессионная модель — это линейная регрессия. Он пытается понять, какое целевое значение будет основано на линейной зависимости заданных функций.

График выше представляет собой точечную диаграмму некоторых значений. Черные точки — это наблюдения, а входные данные (x, по горизонтали) и соответствующие им выходные данные (y, по вертикали) состоят из каждого наблюдения. Красная линия – это ожидаемый результат пары x, y, которая представляет собой линию наилучшего соответствия. Модель линейной регрессии прогнозирует цель в соответствии с линейной тенденцию нашего наблюдения. Модель легко интерпретировать с реальными данными, поскольку линейный график напрямую показывает взаимосвязь.

# Классификация

Классификация предсказывает цель, которая является меткой дискретного класса. (бывший/демократ против республики, собака против кошки, A/B/или C) Мы поговорим о модели древовидной классификации.

Логистическая регрессия

Логистическая регрессия — это широко используемая статистическая модель, которая в своей базовой форме использует логистическую функцию для моделирования бинарной целевой переменной. Несмотря на то, что в методе есть слово «регрессия», он по-прежнему используется для прогнозирования выбора одного класса; пройти или не пройти, выиграть или проиграть, и они обычно помечаются как 0 и 1. Если логистическая функция имеет значение ниже 0,5, она обрабатывает результат как класс 0. Если логистическая функция имеет значение 0,5 и выше, результат класс 1.

На графике слева синяя линия представляет собой линейную регрессию, а красная линия представляет собой логистическую регрессию. Линейная регрессия находит линию наилучшего соответствия, а логистическая регрессия находит разделение на два класса.

Существует также много других моделей регрессии и классификации, таких как древовидная модель, нейронная сеть, K-ближайший сосед, машина опорных векторов и т. д. Они полезны для прогнозирования некоторых результатов, но каждая модель имеет свой собственный способ понимания, это важно выбрать правильную модель для каждого случая.