Огромное количество данных, таких как тексты, звуки, изображения и фильмы, а также широкий спектр личных данных, таких как журналы поиска, записи о покупках и история диагнозов, доступны в наши дни и известны как большие данные. Извлечение полезных знаний из данных называется интеллектуальным анализом данных, а машинное обучение является ключевой технологией для извлечения полезных знаний.

Типы машинного обучения

Машинное обучение можно разделить на следующие категории:
1. Обучение с учителем
2. Обучение без учителя
3. Обучение с подкреплением

Обучение с учителем предполагает, что учащийся учится у руководителя посредством вопросов и ответов. Целью обучения с учителем является приобретение способности к обобщению, которая относится к способности угадывать подходящий ответ на невыученные вопросы. Обучение с учителем применялось к различным задачам реального мира: распознавание рукописного текста, распознавание речи, распознавание изображений, фильтрация спама и т. д. Обучение с учителем можно в целом разделить на две группы:
1. Регрессия. Результатом является целое число с действительным значением.
2. Классификация : Вывод является категоричным.

Обучение без учителярассматривает ситуацию, когда нет наставника и учащийся учится самостоятельно. Компьютер учится, просматривая сами данные и пытаясь выявить закономерности. Типичные задачи неконтролируемого обучения включают кластеризацию и обнаружение выбросов. Он также часто используется в качестве этапа предварительной обработки для задач обучения под наблюдением.

Обучение с подкреплением направлено на приобретение способности к обобщению так же, как и обучение с учителем, но руководитель не дает прямых ответов на вопрос ученика. Вместо этого супервайзер дает обратную связь о поведении студента.

Контролируемое машинное обучение

Регрессияаппроксимирует функцию реальных значений. Пусть «x» будет d-мерным действительным вектором. Пусть «y» будет скаляром вещественного значения, который является выходом функции. Пусть y = f(x) будет целевой функцией обучения. Предполагается, что целевая функция обучения неизвестна, но наблюдаются ее парные выборки вход-выход {(x, y)}. На практике выход «у» может быть искажен из-за шума «е».

y = f(x) + e
x — входной вектор
y — наблюдаемый результат
e — ошибка

Уровень обобщения можно измерить по близости между истинным значением и приближением (наблюдаемым значением). Некоторыми популярными алгоритмами регрессии являются линейная регрессия, полиномиальная регрессия и т. д.

Классификация — это задача распознавания образов в контролируемой манере.
Пусть «x» — входной вектор образов. Пусть y будет классом (скаляром), где y принадлежит {1,…c}, где c обозначает количество классов.
Для обучения классификатора парные выборки ввода-вывода {(x, y)} предоставляются так же, как регрессия. Если истинное правило классификации обозначается как «y = f(x)», классификацию также можно рассматривать как задачу аппроксимации функции. Однако, в отличие от регрессии, здесь нет понятия близости; «y = 2» ближе к «y = 1», чем к «y = 4» в регрессии, однако в классификации все, что имеет значение, — это точное совпадение. «Совершенство» модели измеряется такими показателями, как точность, которая вычисляет процент классов, которые были предсказаны правильно. Некоторыми популярными алгоритмами классификации являются KNN, логистическая регрессия, случайные леса и т. д.

Неконтролируемое машинное обучение

Кластеризация – это неконтролируемая составная часть классификации, цель которой – классифицировать входные выборки "X" на кластеры {1,2,…,c}, где c – количество кластеров — без присмотра. Обычно предполагается, что подобные выборки принадлежат одному и тому же кластеру. Таким образом, как измерить сходство между выборками, является ключевым вопросом кластеризации. Существует множество различных алгоритмов кластеризации, таких как K-mean, DBSCAN, BIRCH и т. д.

Обнаружение выбросов(также известное как обнаружение аномалий) направлено на поиск нерегулярных выборок в заданном наборе данных "X". Подобно кластеризации, сходство между разными выборками является ключом к обнаружению выбросов, поскольку разнородные выборки обычно рассматриваются как выбросы. Обнаружение выбросов широко используется при обнаружении мошенничества в реальной жизни.

Обнаружение изменений(также известное как обнаружение новизны) оценивает, имеет ли недавно добавленный набор данных «X» те же свойства, что и исходный набор данных X.

Вывод

Это был взгляд на машинное обучение для начинающих с высоты птичьего полета. Нам предстоит узнать гораздо больше, начиная с очень важной математики, лежащей в основе машинного обучения.
Я рекомендую всем пройти через:
1. Линейную алгебру
2. Векторное исчисление
3. Вероятность и статистику
, прежде чем погрузиться в реализацию алгоритмов, так как это поможет вам понять алгоритмы и правильно изменить их в соответствии с вашими потребностями.

использованная литература

  1. Книга: Сугияма, Масаси - Введение в статистическое машинное обучение (2016, Морган Кауфманн)
  2. Изображение: Вектор людей создан pch.vector — www.freepik.com