Обзор машинного обучения для начинающих.

Машинное обучение — это программирование компьютеров для оптимизации производительности с использованием примеров данных или прошлого опыта. Это позволяет компьютеру извлекать информацию из прошлых данных. Например, наш человеческий мозг сам работает по концепции машинного обучения. Каждый раз, когда мы видим новый объект, наш мозг сохраняет информацию об этом объекте, такую как имя, размер, цвет и т. д. В следующий раз, когда мы видим тот же или похожий объект, он использует данные, которые были сохранены ранее об этом объекте и в таким образом, это помогает нам распознавать новые объекты.

Отрасль использует машинное обучение для оптимизации своих доходов, находя полезные закономерности с помощью исторических данных.

Теперь возникает вопрос: для решения проблем доступно несколько алгоритмов машинного обучения. Как выбрать один?

Выбор алгоритма машинного обучения в основном зависит от типа проблемы: какой тип проблемы мы собираемся решить.

В этой области существует два типа проблем: 1. Контролируемые 2. Неконтролируемые

Проблемы с учителем: в основном, проблема, которая имеет выходную переменную (независимая переменная), которую необходимо вычислить с помощью заданных входных переменных (зависимая переменная). Всякий раз, когда целевая переменная в наборе данных доступна, эта конкретная проблема будет классифицироваться как контролируемая проблема.

Например: Предположим, нам нужно рассчитать цену ноутбука на основе его конфигурации. Здесь атрибуты, определяющие конфигурацию, являются зависимыми или входными переменными, которые будут влиять на цену, которая является независимой или выходной переменной. В задачах такого типа целевые данные действуют как учитель, который обучает набор данных для подготовки модели, а затем помогает в ее прогнозировании.

Проблемы контролируемого обучения могут быть далее сгруппированы в проблемы регрессии и классификации.

Классификация. Проблема классификации возникает, когда выходной переменной является категория, например «мужской», «женский» или «трансгендер».
Регрессия. Проблема регрессии возникает, когда выходная переменная представляет собой числовое или действительное значение, например «рупии» или «рост».

Вот некоторые из контролируемых алгоритмов машинного обучения:

Линейная регрессия для задач регрессии.
Случайный лес для задач классификации и регрессии.
Машины опорных векторов для задач классификации.
Алгоритм дерева решений для задач классификации

Неконтролируемая проблема: проблема, которая не имеет выходной переменной, означает, что мы не должны вычислять или прогнозировать конкретную переменную, как в контролируемых задачах. Здесь нам предоставляется набор данных, и нас попросят выяснить тенденции из набора данных, чтобы узнать больше о данных. Здесь нет ничего лучше правильного ответа и учителя.

Проблемы неконтролируемого обучения могут быть дополнительно сгруппированы в проблемы кластеризации и ассоциации.

Кластеризация. Проблема кластеризации заключается в том, что вы хотите выявить присущие данным группировки, например группировать клиентов по покупательскому поведению. Например: нам дают набор данных розничного магазина и просят дать некоторую информацию на основе данных. Итак, мы применим некоторые неконтролируемые алгоритмы и в итоге получим тип клиентов для определенного продукта. Это может быть хорошей идеей для розничного продавца, чтобы увеличить продажи этого продукта за счет маркетинга, превышающего потребности целевых клиентов.
Ассоциация. Проблема изучения правила ассоциации возникает, когда вы хотите обнаружить правила, которые описывают большие части ваших данных, например, люди, которые покупают X, также склонны покупать Y. Мы можем рассмотреть очень известное открытие, которое было взято исследованием на розничном бакалейном магазине. Выводы показали, что мужчины в возрасте от 30 до 40 лет, совершающие покупки с 17:00 до 19:00 по пятницам и купившие подгузники, с наибольшей вероятностью покупают пиво. Это побудило продуктовый магазин переместить полку с пивом ближе к островку с подгузниками, и это привело к мгновенному увеличению продаж обоих продуктов на 35%. Это также называется перекрестными продажами.

Выбор алгоритма машинного обучения зависит от двух факторов на очень высоком уровне: первый — это тип постановки задачи, а второй — представление, оценка и оптимизация задач.

Важно помнить, что основой науки о данных являются данные. Машинное обучение полностью основано на данных. отсутствие корректных данных может привести к различной сложности решения задач. Машинное обучение используется в различных областях: распознавание речи, компьютерное зрение, искусственный интеллект, анализ медицинских результатов, дистанционное управление, вычислительная биология и т. д.

Самое главное — построить модель, которая дает полезную аппроксимацию данных. Могут быть доступны тысячи аналитических данных, но важнее всего то, что они должны иметь смысл для бизнеса.

Если мне удалось развеять ваши сомнения относительно машинного обучения, похлопайте мне, пожалуйста. Хлопки мотивируют меня писать больше для вас, ребята. Это дает мне представление о количестве людей, которым я помог своим сообщением.

Обзор машинного обучения для начинающих.

Вопросы по теме