В этой статье мы рассмотрим основы двух подходов к науке о данных и их взаимосвязь с машинным обучением.

Обучение с учителем

Контролируемое обучение - это подход к машинному обучению, который определяется использованием помеченных наборов данных, и важно отметить, что данные помечены. Эти наборы данных предназначены для обучения или «контроля» алгоритмов с целью классификации данных или точного прогнозирования результатов.

Цель состоит в том, чтобы использовать входные данные для прогнозирования значений выходных данных. При обучении с учителем алгоритм «учится» на обучающем наборе данных, итеративно делая прогнозы на основе данных и корректируя их для получения правильного ответа.
Это называется обучением с учителем, потому что процесс обучения алгоритма на основе набора обучающих данных можно рассматривать как учителя, контролирующего процесс обучения.

Обучение с учителем можно разделить на два типа задач:

Классификация. Проблема классификации заключается в том, что мы прогнозируем качественные результаты. Качественные переменные обычно представлены кодами в числовом виде. Самый простой случай - когда есть только два класса или категории, такие как «успех» или «неудача», «выжил» или «умер».
Популярны наивные байесовские методы, логистическая регрессия, деревья решений и K-ближайшие соседи. алгоритмы классификации.

Регрессия. Проблема регрессии возникает, когда мы прогнозируем количественные результаты. Он обычно используется для составления прогнозов, например, для доходов от продаж для данного бизнеса.
Линейная регрессия, логистическая регрессия и полиномиальная регрессия - популярные алгоритмы регрессии.

Обучение без учителя

Обучение без учителя - это тип алгоритма, который изучает закономерности на основе немаркированных данных. Цель обучения без учителя - смоделировать базовую структуру или распределение данных, чтобы узнать о них больше.

В контексте обучения без учителя такой прямой меры успеха не существует. Трудно установить достоверность выводов, сделанных на основе результатов большинства алгоритмов обучения без учителя. Необходимо прибегать к эвристическим аргументам не только для мотивации алгоритмов, как это часто бывает и в контролируемом обучении, но и для суждений о качестве результатов. Алгоритмы предоставлены сами себе для обнаружения и представления интересной структуры данных.
Эти алгоритмы обнаруживают скрытые закономерности в данных без необходимости вмешательства человека (следовательно, они «неконтролируемые»).

Обучение без учителя можно разделить на два основных метода: кластеризацию и ассоциацию.

Кластерный анализ, также называемый сегментацией данных, преследует различные цели. Все они связаны с группировкой или сегментированием коллекции объектов на подмножества или «кластеры».
Иногда цель состоит в том, чтобы организовать кластеры в естественную иерархию. (например, группировка клиентов по покупательскому поведению.)
Кластерный анализ также используется для формирования описательной статистики, чтобы установить, состоят ли данные из набора отдельных подгрупп, каждая группа представляет объекты с существенно разными свойствами.

Анализ ассоциаций стал популярным инструментом для добычи коммерческих баз данных.
Чаще всего его применяют к двоичным данным Xj ∈ {0,1}, где он называется анализом «рыночной корзины».
Те переменные, которые часто имеют общее значение, равное единице, представляют собой элементы, которые часто покупаются вместе. (например, люди, которые покупают X, также склонны покупать Y).
Эта информация может быть весьма полезной для заполнения полок, кросс-маркетинга в рекламных акциях, дизайна каталогов и сегментации потребителей на основе моделей покупок.

Полу - контролируемое обучение

Полу-контролируемое обучение - это подход к машинному обучению, который сочетает небольшой объем помеченных данных с большим объемом немаркированных данных во время обучения. Полу-контролируемое обучение находится между неконтролируемым обучением (без маркированных данных обучения) и контролируемым обучением (только с маркированными данными обучения).

Немаркированные данные, когда они используются вместе с небольшим количеством помеченных данных, могут привести к значительному повышению точности обучения. Для получения помеченных данных для задачи обучения часто требуется квалифицированный агент-человек (например, для расшифровки аудиосегмента) или физический эксперимент (например, определение трехмерной структуры белка или определение наличия масла в конкретном месте). Стоимость, связанная с процессом маркировки, таким образом, может сделать большие, полностью маркированные обучающие наборы невозможными, тогда как получение немаркированных данных является относительно недорогим. В таких ситуациях обучение без учителя может иметь большую практическую ценность.

Разница между обучением с учителем и без учителя

Самая большая разница между контролируемым и неконтролируемым обучением состоит в том, что контролируемое обучение имеет дело с помеченными данными, а неконтролируемое обучение имеет дело с немаркированными данными.

Модель контролируемого обучения использует данные обучения для изучения связи между входными и выходными данными. Напротив, алгоритм обучения без учителя не использует выходные данные.

Цель обучения с учителем - обучить модель, чтобы она могла предсказать результат, когда ей будут предоставлены новые данные.
Цель обучения без учителя - найти скрытые закономерности и полезную информацию из неизвестного набора данных.

Для обучения модели под наблюдением требуется наблюдение.
Модели обучения без учителя, напротив, работают сами по себе, чтобы обнаружить внутреннюю структуру немаркированных данных.

Ссылки:

Элементы статистического обучения - Стэнфордский университет

Https://www.ibm.com

Https://machinelearningmastery.com





Https://en.wikipedia.org/wiki/Semi-supervised_learning