Термин «машинное обучение» часто ошибочно путают с искусственным интеллектом [JB1], но на самом деле машинное обучение — это подтермин.

Тип поля/ИИ. Машинное обучение также часто называют прогнозной аналитикой или прогнозным моделированием.

Термин «машинное обучение» был придуман американским ученым-компьютерщиком Артуром Сэмюэлем в 1959 году и определяется как «способность компьютера обучаться без явного программирования».

В своей самой простой форме машинное обучение использует запрограммированные алгоритмы, которые получают и анализируют входные данные для прогнозирования выходных значений в допустимом диапазоне. По мере того как эти алгоритмы получают новые данные, они изучают и модифицируют свои операции для повышения производительности, со временем развивая «интеллектуальность».

Существует четыре типа алгоритмов машинного обучения: контролируемый, полуконтролируемый, неконтролируемый и расширенный.

Подробнее: Каковы три основных типа задач машинного обучения?

Обучение под наблюдением

При контролируемом обучении машина обучается на примерах. Оператор предоставляет алгоритму машинного обучения известный набор данных, содержащий желаемые входные и выходные данные, и алгоритм должен найти способ выяснить, как получить эти входные и выходные данные. В то время как оператор знает правильные ответы на проблему, алгоритм выявляет закономерности в данных, учится на наблюдениях и делает прогнозы. Алгоритм делает прогнозы, а оператор их корректирует. Этот процесс продолжается до тех пор, пока алгоритм не достигнет высокого уровня точности/производительности.

В условиях упадка контролируемого обучения: классификация, регрессия и прогнозирование.

Классификация. В задачах классификации программа машинного обучения должна сделать вывод из наблюдаемых значений и определить, к какой категории относятся новые наблюдения. Например, если электронные письма отфильтрованы как «спам» или «не спам», программа должна проанализировать существующие данные наблюдения и соответствующим образом отфильтровать электронные письма.

Регрессия. В задачах регрессии программа машинного обучения должна оценивать и понимать отношения между переменными. Регрессионный анализ фокусируется на одной зависимой переменной и ряде других изменяющихся переменных, что делает его особенно полезным для предсказаний и прогнозирования.

Прогнозирование. Прогнозирование — это процесс прогнозирования будущего на основе прошлых и текущих данных, который часто используется для анализа тенденций.

Подробнее: Нужно ли инженерам по машинному обучению знать структуры данных и алгоритмы?

Полуконтролируемое обучение

Обучение с полуучителем похоже на обучение с учителем, но вместо этого используются размеченные и неразмеченные данные. Помеченные данные — это в основном информация, которая имеет значимые метки, помогающие алгоритму понять данные, в то время как неразмеченные данные не содержат такой информации. Используя это сочетание, алгоритмы машинного обучения могут научиться маркировать немаркированные данные.

Неконтролируемое обучение

Алгоритм машинного обучения анализирует данные для выявления закономерностей. Нет кнопки ответа или человека-оператора, дающего инструкции. Вместо этого машина определяет связи и корреляции, анализируя доступные данные. В процессе обучения без учителя алгоритм машинного обучения должен интерпретировать большие наборы данных и соответствующим образом обрабатывать эти данные. Алгоритм пытается каким-то образом организовать эти данные, чтобы описать их структуру. Это может означать группировку данных в группы или организацию их таким образом, чтобы они выглядели более организованными.

Чем больше данных вы оцениваете, тем лучше и точнее ваша способность принимать решения на основе этих данных.

Под эгидой неконтролируемого обучения попадают:

Кластеризация. При кластеризации похожие наборы данных (в соответствии с определенными критериями) группируются вместе. Это полезно для сегментации данных на несколько групп и выполнения анализа каждого набора данных для поиска закономерностей. Уменьшение размерности: Сокращение размерности уменьшает количество рассматриваемых переменных, чтобы найти именно ту информацию, которая необходима.