В марте этого года IBM The Cloud Developer Advocates из группы разработчиков IBM в Саудовской Аравии открыли семинар IBM DSX в инкубаторе Badir.

Цель этого семинара — помочь разработчикам построить прогнозную модель с помощью инструмента IBM Data Science Experience (DSX).

Дима Аламар открыла сессию, объяснив важность науки о данных и то, как данные являются сырой нефтью; это ценно, но нуждается в доработке. Она ознакомилась с Международным стандартным процессом интеллектуального анализа данных «CRISP-DM» и различными ролями в области обработки данных, включенными в каждый этап.

Затем я начал объяснять реальные примеры науки о данных и концепции машинного обучения и методологии. Я рассказал об инструменте IBM DSX и о том, как бизнес может преобразовать свои данные в реальную ценность для бизнеса с помощью новейших, наиболее гибких и открытых технологий. Мы объяснили, как IBM DSX может помочь командам сотрудничать с лучшими в своем классе инструментами с открытым исходным кодом и визуальными инструментами, а также с наиболее гибкими и масштабируемыми вариантами развертывания. Мы продемонстрировали, как разработчики могут комбинировать модели машинного обучения с расширенным предписывающим моделированием для оптимизации сложных бизнес-решений. Они могут использовать возможности быстрого визуального моделирования без кодирования, расширенные возможности подготовки данных и автоматически решать распространенные проблемы с качеством данных.

Наконец, мы засучили рукава и начали семинар с создания модели машинного обучения, которая прогнозирует отток клиентов в телекоммуникационной компании. Мы использовали IBM SPSS Modular для создания потока.

Задача 1. Создайте проект в IBM DSX

После того, как вы вошли в систему IBM DSX, вы можете приступить к созданию проекта.

  1. Прокрутите страницу вниз и нажмите значок (+) New project.
  2. Назовите свой проект «Предсказать отток клиентов».
  3. Прокрутите вниз, в разделе «Определить хранилище» нажмите Добавить, чтобы создать экземпляр IBM Cloud Object Storage. Сервис откроется, выберите тарифный план Lite и нажмите Создать.
  4. В службе Spark нажмите Добавить, чтобы создать экземпляр IBM Analytics для Apache Spark. Сервис откроется, выберите тарифный план Lite и нажмите Создать.
  5. Обновите страницу, чтобы убедиться, что сервисы добавлены.
  6. Нажмите «Создать», чтобы завершить создание проекта.

Задача 2. Загрузить набор данных

  1. Скачать набор данных
  2. На странице проекта перейдите на вкладку «Активы», перетащите загруженный файл набора данных и поместите его на боковую панель «Загрузить».
  3. Ваш набор данных должен быть успешно загружен!

Задача 3. Создайте модель SPSS

  1. Та же страница, что и раньше, прокрутите вниз до потоков Modeler.
  2. Нажмите значок (+) «Новый поток».
  3. На вкладке «Создать» назовите средство моделирования «Прогнозная модель» и убедитесь, что вы выбрали IBM SSPS Modeler Runtime. Затем нажмите Создать.

Задача 4. Проверка набора данных

У вас есть набор данных с данными о клиентах и ​​данными об оттоке. Инженер данных объединил оба набора данных в один набор. Набор данных ожидает проверки на холсте. В этой задаче вы проверите набор данных с помощью IBM SPSS Modeler.

  1. Перетащите набор данных на холст.
  2. Щелкните Telco-Customer-Churn.csv. В открывшемся меню нажмите Предварительный просмотр. Показаны первые 10 записей набора данных.
  3. Прокрутите, чтобы проверить правую часть набора данных. Последний столбец, CHURN, содержит данные о том, ушел ли клиент или нет.
  4. Нажмите ОК, чтобы закрыть окно предварительного просмотра.

  1. В палитре щелкните вкладку «Вывод».
  2. Добавьте узел Аудит данных на холст, щелкнув Аудит данных.
  3. Подключите узел аудита данных к узлу Telco-Customer-Churn.csv, щелкнув Telco-Customer-Churn.csv. Узел «Аудит данных» автоматически переименовывается в «21 поле».
  4. Щелкните 21 поле. В открывшемся меню нажмите «Выполнить». Вы можете просмотреть ключевые статистические данные и показатели для набора данных. Когда вы закончите, нажмите OK, чтобы закрыть окно.

Задача 5. Подготовьте набор данных

Подготовьте набор данных для машинного обучения.

  1. В палитре перейдите на вкладку Field Ops.
  2. Добавьте узел Тип на холст, нажав Тип.
  3. Соедините узел Telco-Customer-Churn.csv с узлом Type, щелкнув Telco-Customer-Churn.csv.
  4. Нажмите Тип. В открывшемся меню нажмите Открыть.
  5. На правой боковой панели разверните настройки.
  6. Нажмите Настроить типы.
  7. Установите уровень измерения столбцов, щелкнув Read Values. В строке CustomerID щелкните Ввод. В открывшемся меню нажмите Record ID, чтобы изменить роль.
  8. Прокрутите до строки CHURN.
  9. Нажмите CHURN и измените роль с Input на Target. Строка CHURN используется в качестве цели для прогнозирования в вашей модели машинного обучения.
  10. Нажмите «Применить», а затем нажмите «ОК».

Задача 6. Обучите модель

Обучите модель дерева C&R с вашим набором данных.

  1. В палитре перейдите на вкладку Моделирование.
  2. Добавьте узел C&R Tree на холст, нажав C&R Tree.
  3. Соедините узел Дерево C&R с узлом Тип, нажав Тип. Узел C&R Tree автоматически переименовывается в «CHURN».
  4. Щелкните ИЗМЕНИТЬ. В открывшемся меню нажмите «Выполнить». Модель обучается, и на холст добавляется новый узел CHURN, который выглядит как золотой самородок.
  5. На выходе нажмите на результаты. Просмотрите модель и обратите внимание, какие функции являются важными предикторами. Когда вы закончите, нажмите OK, чтобы закрыть окно.

Задача 7. Оцените и визуализируйте модель

Оцените производительность модели и визуализируйте модель с помощью диаграммы усиления.

  1. В палитре перейдите на вкладку Вывод.
  2. Добавьте узел Таблица на холст, нажав Таблица.
  3. Добавьте на холст узел Анализ, нажав Анализ.
  4. Соедините узел золотого слепка CHURN с узлами Table и Analysis, щелкнув узел золотого слепка CHURN.
  5. Нажмите на золотой самородок CHURN еще раз. В открывшемся меню нажмите «Выполнить отсюда».
  6. В открывшемся боковом окне «Вывод» вы должны увидеть выходные данные как «Анализ», так и «Таблица».
  7. Нажмите на вывод Table, чтобы просмотреть результаты.
  8. Прокрутите вправо и обратите внимание, что в набор данных были добавлены два столбца: $R-CHURN и $RC-CHURN. Столбец $R-CHURN является столбцом предсказания. Столбец $RC-CHURN — это столбец уровня достоверности. Нажмите Прогнозная модель, чтобы вернуться на холст.
  9. Просмотрите производительность или точность модели в выходных данных анализа. Нажмите Прогнозная модель, чтобы вернуться на холст.

  1. В палитре перейдите на вкладку Графики.
  2. Добавьте узел оценки EvОценка на холст, нажав Оценка.
  3. Соедините узел Оценка с узлом CHURN Golden Nugget, щелкнув узел CHURN Golden Nugget.
  4. Нажмите ОТМЕНИТЬ. В открывшемся меню нажмите «Выполнить». Просмотрите диаграмму усиления. Когда вы закончите, нажмите Прогнозная модель, чтобы вернуться на холст.

Вы завершили обучение. Поздравляем!

В этом учебном пособии поверхностно рассматриваются многие мощные возможности IBM SPSS Modeler. В этом уроке вы выполнили следующие задачи:

1. Проверен набор данных об оттоке клиентов

2. Подготовил набор данных для машинного обучения

3. Обучение и оценка модели машинного обучения

4. Отображена диаграмма усиления модели

— — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Чувствуете, что пропустили это мероприятие, не волнуйтесь, впереди еще больше, присоединяйтесь к нашей группе встреч и следите за обновлениями.

Кредиты на эту демонстрацию идут на https://www.ibm.com/cloud/garage/demo/try-spss-modeler/