Компании устанавливают рентабельность инвестиций в большие данные, перепрофилируя данные, хранящиеся в их озерах, и используя их для решения новых проблем и ответов на некоторые насущные вопросы.

Машинное обучение идеально подходит для анализа бизнес-аналитики, когда объем данных слишком велик и сложен для всестороннего анализа. Диапазон возможностей, скрытых в ваших данных, слишком велик, и только используя возможности, вы можете получить высокую рентабельность инвестиций в свои большие данные.

С помощью машинного обучения вы можете;

  • Обнаружение скрытых структур в ваших данных с помощью кластеризации
  • Прогнозирование значений на основе собранных и текущих данных (регрессия)
  • Прогнозировать категории в ваших данных на основе собранных и текущих данных (классификация)
  • Обнаружение исключений и скрытых аномалий

Этот пост будет посвящен предсказанию категорий в ваших собранных и текущих данных; классификация. Например, вам может понадобиться такой анализ при использовании ваших маркетинговых планов, ориентируясь на тех клиентов, которые, по вашему мнению, хорошо реагируют на вашу рекламу.

В качестве примера возьмем набор данных, состоящий из записей о доходах физических лиц. Для этого упражнения мы будем использовать ML Studio.

Если мы хотим прогнозировать классы дохода на основе возраста, образования, пола и рабочего времени, мы можем выбрать алгоритм бинарного дерева классификации.

Алгоритм бинарной классификации работает путем создания деревьев на основе признаков, представленных в данных.

Мы начнем с импорта и подготовки образца набора данных о доходах из левого меню ML Studio.

Подготовка данных

Перед обучением нашей модели нам нужно будет подготовить наш набор данных для обучения.

Это предполагает,

  • Очистка отсутствующих записей путем удаления строк с пустым значением или столбцов.
  • Проецирование столбцов путем выбора точных характеристик, необходимых в этом упражнении (возраст, образование, пол, рабочее время и доход)
  • Разделение данных; 60% на обучение модели и 40% на ее тестирование.

Обучение модели

Это включает в себя использование 60% строк данных при обучении модели с использованием алгоритма бинарной классификации; Усиленное дерево решений с двумя классами, которое хорошо известно своей точностью и быстрым обучением.

Алгоритм будет использовать один параметр для классификации; то есть доход.

Оценка модели

В результате оценки записи будут помечены меткой оценки и оцененными вероятностями. Просто взглянув на записи, вы можете легко определить или почувствовать коэффициент ошибок, вносимый этим алгоритмом.

Оценка модели

Чтобы получить точную оценку ваших прогнозов, вы можете оценить свою модель, чтобы проверить как точность, так и коэффициент точности.

Общий обучающий эксперимент будет выглядеть как простая карта перетаскиваемых компонентов.

Монетизация вашего эксперимента

Затем вы можете оптимизировать свой эксперимент, преобразовав свою обучающую модель в прогностический эксперимент, чтобы начать использовать ее для оценки новых данных, и развернуть ее как веб-службу для интеграции вашей новой модели в вашу систему или приложение, куда вы отправляете данные в модель и получить оценку.