Я собираюсь определить, что, вероятно, является наиболее распространенным типом проблемы машинного обучения, который называется контролируемое обучение.

Вероятно, лучше всего объяснить или начать с примера того, что такое контролируемое обучение, а формальное определение мы дадим позже.

Допустим, мы хотим спрогнозировать цены на жилье, и, как правило, некоторое время назад нам приходилось собирать наборы данных из жилищного города Портленд, Орегон, Бивертон и т. Д., И предположим, мы строим набор данных, и он выглядит следующим образом.

На изображении выше по горизонтальной оси (ось X) отложены размеры различных домов в квадратных футах, а по вертикальной оси (ось Y) - размер цена разных домов в тысячах долларов.

Итак, учитывая эти данные, допустим, у вас есть друг, который владеет домом площадью, скажем, 750 квадратных футов, как показано на рисунке выше, и он хочет продать дом и хочет знать, сколько он может получить за дом.

Итак, как алгоритм обучения может вам помочь?

Одна вещь, которую может захотеть сделать алгоритм обучения, - это провести прямую линию (показана розовой линией) через данные, а также провести прямую линию к данным. Исходя из этого, похоже, что дом ваших друзей можно продать примерно за 150 000 долларов. Но это не единственный алгоритм обучения, который вы можете использовать, так как в зависимости от варианта использования может быть лучший.

Например, вместо того, чтобы подбирать прямую линию (выделена розовым цветом) к данным, мы можем решить, что лучше подобрать квадратичную функцию или полином второго порядка к этим данным (показано синей линией). Если вы сделаете это и сделаете прогноз, то, возможно, ваш друг сможет продать дом примерно за 200000 долларов.

Итак, это пример алгоритма контролируемого обучения.

Определение:

- Термин «контролируемое обучение» относится к тому факту, что мы предоставили алгоритму набор данных, в котором были даны фактические ответы, называемые «правильными ответами».

То есть мы предоставили ему набор данных о домах, в котором для каждого примера в этом наборе данных мы сказали ему, какова правильная цена, и задача алгоритма заключалась в том, чтобы просто дать больше этих правильных ответов, например, например, в который ваш друг хотел продать свой дом.

Чтобы определить это немного более терминологически, это также называется проблемой регрессии. Под проблемой регрессии я имею в виду, что мы пытаемся предсказать непрерывный результат. А именно цену, так что технически цены можно округлить до ближайшего цента. Итак, возможно, цены на самом деле представляют собой дискретную стоимость, но обычно мы думаем о цене дома как о действительном числе, как о скалярном значении, как о непрерывном числе значений, а термин регрессия относится к тому факту, что мы пытаемся предсказать какие-то непрерывно значимые атрибуты.