Путаница между контролируемым и неконтролируемым машинным обучением

Машинное обучение занимает центральное место в индустрии компьютерных технологий. Все так или иначе прямо или косвенно связаны с этим. Человеческие виды, существовавшие тысячи и тысячи лет назад, заинтересованы в том, чтобы знать будущее, поэтому мы слишком заинтересованы в нем. Это любопытство к предсказаниям будущего заложено в нашей ДНК, и я думаю, что оно никогда не выйдет слишком далеко.

Существует много древних методологий прогнозирования будущего, таких как астрология и нумерология, которые могут предсказывать будущее о нас, погоде и т. Д. В современном мире, чтобы узнавать все больше и больше в быстром темпе, мы включили компьютеры, чтобы помочь нам.

Теперь вернемся к машинному обучению, которое представляет собой комбинацию входных данных, расчетов и будущих результатов.

Самое первое, с чем сталкивается в начале машинного обучения, с какими данными вы имеете дело, то есть с тем, какой алгоритм или статистику вы собираетесь использовать, — это контролируемое и неконтролируемое обучение.

Контролируемое обучение

Если наши данные имеют выходную/ответную переменную (y), соответствующую их входной/независимой переменной (X), то такие сценарии подпадают под контролируемое обучение. В этом случае у нас есть данные метки. Давайте разберемся подробнее: рассмотрим набор данных IRIS (доступный в библиотеке scikit), здесь переменная (функция) — это виды, которые имеют три категории (3 — класс), а именно «Setosa», «Versicolor» и «Virginica».

Обучение без учителя

Если данные, у которых нет выходной переменной, соответствующей их входной переменной, то это случай обучения без учителя. Это, должно быть, сбивает вас с толку, например, если вы не предсказываете результат, то что делать с этими данными. На самом деле у него много дел, например, распознавание образов. Давайте разберемся в этом подробно: Предположим, вы уже 5 лет являетесь владельцем компании по производству молочных продуктов, которая производит сыр, масло и панир для 1000 клиентов. Теперь, глядя на данные о продажах каждого клиента, вы хотите предсказать возможность покупки определенного продукта на основе одного приобретенного продукта. Итак, понятно, что если человек покупает сыр, то насколько вероятно, что он купит масло или панир на основе всех своих прошлых покупок. В этих случаях результат зависит от покупательского поведения в прошлом, и в таких случаях очень распространенный подход — начать с кластеризации.

В обоих случаях существует множество алгоритмов для моделей ML, но лучший подход зависит от имеющихся у вас данных и анализа данных. Я настоятельно рекомендую вам сначала уделить время сбору данных или релевантности данных, а затем только переходить к другим шагам.