С чего начать машинное обучение и все его алгоритмы? Ниже представлен подробный обзор подходов машинного обучения и наиболее популярных алгоритмов, с которых можно начать.

Оглавление

· Введение
· Категории машинного обучения
· Типы моделей машинного обучения
· Классификационные модели машинного обучения
Дерево решений
Случайный лес
Машина опорных векторов (SVM)
K-ближайший сосед
· Модели регрессии для машинного обучения
Линейная Регрессия
· Модели кластеризации для машинного обучения
Кластеризация K-средних
· Выбор правильного алгоритма машинного обучения
· Заключение

Введение

Чтобы понять алгоритмы машинного обучения, вы должны сначала понять, что такое машинное обучение и его три основные категории.

Машинное обучение (МО) — это разновидность искусственного интеллекта (ИИ), которая фокусируется на разработке алгоритмов и статистических моделей, которые позволяют компьютерам выполнять задачи без явного программирования для этих задач. Вместо этого эти алгоритмы используют шаблоны и логические выводы для обучения на основе данных.

Другими словами, машинное обучение позволяет компьютерам учиться на данных и принимать решения и прогнозы на основе этих данных. Например, прогнозирование тенденций фондового рынка, рекомендация продуктов или фильмов пользователям на основе их прошлых предпочтений, распознавание изображений или речи, обнаружение мошеннических транзакций или вождение беспилотных транспортных средств.

Категории машинного обучения

Когда мы говорим об МО, мы часто делим его на три основных класса.

  • Контролируемое обучение
  • Обучение без присмотра
  • Обучение с подкреплением

Проще говоря, контролируемое обучение — это когда метка, которую вы хотите спрогнозировать, находится в наборе данных.

Обучение без учителя делает прогнозы без меток в данных.

Чтобы глубже разобраться в различиях между этими двумя подходами, прочтите нашу статью Обучение с учителем и без учителя.

Обучение с подкреплением — это когда алгоритм учится, совершая ошибки, и в конечном итоге становится все более и более точным по мере обучения на данных.

Но есть и другой способ классифицировать машинное обучение.

Типы моделей машинного обучения

Мы также можем классифицировать модели ML, сосредоточив внимание на том, как модель работает. Таким образом, мы получаем три типа ML:

  • Классификация
  • Регрессия
  • Кластеризация

Классификация фокусируется на группировке или маркировке элементов.

Регрессия пытается понять тенденцию и предсказать числовые переменные.

Кластеризация — это группировка объектов на основе сходства.

Модели классификации для машинного обучения

Четыре популярных алгоритма классификации:

  • Древо решений
  • Случайный лес
  • Машина опорных векторов (SVM)
  • K-ближайший сосед

Древо решений

Дерево решений — это модель, которая принимает решения на основе серии вопросов или тестов. Это похоже на игру из 20 вопросов: начиная с общих вопросов и постепенно становясь более конкретными. Он работает как блок-схема, задавая вопросы и следуя по пути на основе ответов.

Случайный лес

Случайный лес, вероятно, является одной из самых популярных моделей дерева решений. Это ансамбль деревьев решений. Он создает различные наборы деревьев решений на основе случайно выбранных точек данных, а затем усредняет их прогнозы. Это снижает риск переобучения и повышает общую точность.

Прочтите нашу статью Дерево решений и алгоритм случайного леса, где мы подробно рассмотрели все, что связано с алгоритмом дерева решений и его расширением алгоритм случайного леса.

Машина опорных векторов (SVM)

Для классификации используется Машина опорных векторов или SVM. Он находит лучшую границу или гиперплоскость, которая разделяет данные на разные классы. Цель состоит в том, чтобы максимизировать разницу между ближайшими точками данных каждого класса. Используя аналогию, если у вас и ваших друзей есть разные типы конфет, SVM — это как рисование линии, которая сортирует все конфеты по соответствующим группам.

K-ближайший сосед

Используя аналогию, если вы переезжаете в новый город и хотите определить, тихий ваш район или шумный, вы можете понаблюдать за своими ближайшими соседями. Если три соседа тихие, а один шумный, вы, скорее всего, заключите, что в вашем районе тихо.

Регрессионные модели для машинного обучения

Популярной моделью из категории регрессия является линейная регрессия.

Линейная регрессия

Большинство людей знакомятся с этим в старшей школе. Например, вы заметите закономерность, если попытаетесь предсказать результаты экзамена друга, основываясь на количестве часов, которые он проучил. Больше времени, потраченного на обучение, обычно коррелирует с лучшими результатами. Модель линейной регрессии фиксирует эту корреляцию, представляя связь между двумя переменными.

Модели кластеризации для машинного обучения

Кластеризация группирует объекты на основе сходства. Одним из самых популярных алгоритмов кластеризации является кластеризация k-средними.

Кластеризация K-средних

Этот алгоритм используется для разделения набора данных на набор отдельных непересекающихся групп, называемых кластерами.

Представьте, что вы находитесь на большой вечеринке с людьми разных профессий, например, врачами, художниками, инженерами и поварами, но вы не знаете, кто к какой профессии принадлежит. Предположим, вы наблюдаете за их разговорами и группируете их по схожим темам, которые они обсуждают. В этом случае вы можете заметить формирование кластеров: те, кто говорит о медицинских терминах, те, кто обсуждает художественные методы, те, кто обсуждает инженерные проблемы, и те, кто делится кулинарными рецептами. Кластеризация K-средних аналогична группировке тусовщиков на основе сходства их разговоров, даже если вы изначально не знали их профессий.

После изучения всех этих алгоритмов машинного обучения естественным образом возникает вопрос: как выбрать правильный алгоритм?

Выбор правильного алгоритма машинного обучения

Выбор правильного алгоритма машинного обучения не всегда прост. Вот три совета:

1. Понимайте свои данные. Тип имеющихся у вас данных определяет модели, которые вы будете использовать. Например, наличие меток может определить, выберете ли вы контролируемую или неконтролируемую модель. Также подумайте, являются ли ваши данные категориальными или числовыми.

2. Определите свою проблему: поймите свою цель. Если вы хотите выявить скрытые закономерности, вы можете использовать кластеризацию. Если вы стремитесь спрогнозировать тенденцию, рассмотрите регрессию. Для рекомендаций эта классификация может оказаться подходящей.

3. Оцените производительность. Убедитесь, что ваш алгоритм эффективно работает с вашими данными. Это можно сделать путем оценки точности задачи классификации или определения среднеквадратической ошибки для регрессионной модели. Цель состоит в том, чтобы увидеть, как ваша модель работает с данными, которые вы ей предоставили.

Заключение

Видите ли, алгоритмы не так уж и страшны, и понять их общую суть довольно легко. Конечно, использовать их на практике гораздо сложнее, особенно при принятии решения, какой алгоритм использовать для вашей задачи.

Понимание основ этих моделей машинного обучения и их популярных алгоритмов может обеспечить прочную основу для более глубокого изучения алгоритмов машинного обучения, которые вам следует знать для науки о данных.

Оригинально опубликовано на https://www.stratascratch.com.