Что такое машинное обучение?

Машинное обучение, в конечном счете, заключается в поиске закономерностей в структурированных данных и прогнозировании. Это могут быть (и часто являются) предсказания того, что произойдет в будущем. Но это не единственный способ встретить термин «прогнозы» в решениях для машинного обучения. Часто это также означает прогнозирование ответов на такие вопросы, как: «Что за собака на этом изображении?» Машинное обучение также можно рассматривать как «обучение на основе данных».

Типы машинного обучения

  1. Контролируемое обучение
  2. Неконтролируемое обучение

Что такое контролируемое обучение?

Обучение с учителем — это подход к машинному обучению, определяемый использованием помеченных наборов данных для обучения алгоритмов для классификации данных и прогнозирования результатов.

Помеченный набор данных имеет выходной тег, соответствующий входным данным, чтобы машина понимала, что искать в невидимых данных.

Контролируемая категоризация машинного обучения

Важно помнить, что все алгоритмы обучения с учителем по существу являются сложными алгоритмами, классифицируемыми либо как классификационные, либо как регрессионные модели.

1) Модели классификации. Модели классификации используются для задач, в которых выходная переменная может быть классифицирована, например, «Да» или «Нет», или «Пройдено» или «Не пройдено». Модели классификации используются для прогнозирования категории данных. Примеры из реальной жизни включают обнаружение спама, анализ настроений, прогнозирование результатов экзаменов и т. д.

2) Регрессионные модели. Регрессионные модели используются для задач, где выходная переменная представляет собой реальное значение, такое как, например, уникальное число, доллары, зарплата, вес или давление. Чаще всего он используется для прогнозирования числовых значений на основе предыдущих наблюдений за данными. Некоторые из наиболее известных алгоритмов регрессии включают линейную регрессию, логистическую регрессию, полиномиальную регрессию и гребенчатую регрессию.

Применение контролируемых алгоритмов обучения

  • Прогноз погоды
  • Предиктивная аналитика (цены на жилье, биржевые котировки и т.д.)
  • Распознавание текста
  • Обнаружение спама
  • Анализ настроений клиентов
  • Обнаружение объекта
  • Распознавание лиц
  • Распознавание подписи

Что такое неконтролируемое обучение?

Когда у нас нет меток для входных данных (немаркированные наборы данных), наша модель должна уметь находить закономерности и закономерности во входных данных, неизвестных нам, людям. Нам нужно оценить, какие ассоциации встречаются чаще, чем другие, и как они связаны.

Модели обучения без учителя могут выполнять более сложные задачи, чем модели обучения с учителем, но они также более непредсказуемы.

Категоризация неконтролируемого машинного обучения

1) Кластеризация — один из наиболее распространенных методов обучения без учителя. Метод кластеризации включает организацию неразмеченных данных в похожие группы, называемые кластерами. Таким образом, кластер представляет собой набор похожих элементов данных. Основная цель здесь — найти сходство в точках данных и сгруппировать похожие точки данных в кластер.

2) Ассоциация позволяет вам устанавливать ассоциации между объектами данных в больших базах данных. Этот неконтролируемый метод предназначен для обнаружения интересных взаимосвязей между переменными в больших базах данных. Например, люди, которые покупают новый дом, чаще всего покупают новую мебель.

Другие примеры:

  • Подгруппа больных раком, сгруппированная по измерениям экспрессии их генов.
  • Группы покупателей на основе их истории просмотров и покупок
  • Группа фильмов по рейтингу кинозрителей

Ниже приведен список некоторых популярных алгоритмов обучения без учителя:

  • Кластеризация K-средних
  • Иерархическая кластеризация
  • Обнаружение аномалий
  • Нейронные сети
  • Анализ основных компонентов
  • Анализ независимых компонентов
  • Априорный алгоритм
  • Разложение по сингулярным значениям

Применение алгоритмов обучения без учителя

Некоторые практические применения алгоритмов обучения без учителя включают:

  • Обнаружение мошенничества
  • Обнаружение вредоносных программ
  • Выявление человеческих ошибок при вводе данных
  • Проведение точного анализа корзины и т.д.

Когда вы должны выбрать обучение с учителем или обучение без учителя?

В производстве большое количество факторов влияет на то, какой подход машинного обучения лучше всего подходит для той или иной задачи. И, поскольку каждая задача машинного обучения уникальна, решение о том, какую технику использовать, является сложным процессом.

В целом, хорошая стратегия для отработки правильного подхода к машинному обучению заключается в следующем:

  • Оцените данные. Они помечены или не помечены? Имеются ли экспертные знания для поддержки дополнительной маркировки? Это поможет определить, следует ли использовать контролируемый, неконтролируемый, полуконтролируемый или усиленный подход к обучению.
  • Определите цель. Является ли проблема повторяющейся, определенной? Или ожидается, что алгоритм будет предсказывать новые проблемы?
  • Просмотрите доступные алгоритмы, которые могут подойти для решения проблемы с точки зрения размерности (количества функций, атрибутов или характеристик). Алгоритмы-кандидаты должны соответствовать общему объему данных и их структуре.

Конечные примечания

Обучение с учителем и обучение без учителя являются ключевыми понятиями в области машинного обучения. Правильное понимание основ очень важно, прежде чем вы окунетесь в пул различных алгоритмов машинного обучения.