Прогноз индекса потребительских цен с помощью SPSS Modeler в Watson Studio

Watson Studio предлагает множество методов моделирования, взятых из машинного обучения и статистики. Методы, доступные на палитре узлов SPSS Modeler, позволяют извлекать новую информацию из ваших данных и разрабатывать прогнозные модели. Каждый метод имеет определенные сильные стороны и лучше всего подходит для решения определенных типов задач.

Этот пример проведет вас через процесс создания модели временных рядов параллельно с публикацией в блоге о прогнозировании данных временных рядов, которую вы можете найти здесь. В данном случае модель будет создана с помощью SPSS Modeler в Watson Studio. Построенная модель называется ARIMA (A до R прогрессивной I интегрированной M по A верная) модель. Используемый набор данных называется Потребительские цены - он соответствует значениям индекса потребительских цен (ИПЦ) в разных странах с течением времени. В этом примере для простоты вы сосредоточитесь на одной стране - Соединенных Штатах, где ИПЦ документируется за 40 лет, с 1969–2008 гг.

Предпосылки

Если вы используете Watson Studio Cloud, создайте учетную запись, если у вас ее еще нет.
Создайте новый проект в Watson Studio Cloud.
Загрузите Набор данных о потребительских ценах (щелкните значок Загрузить в правом верхнем углу и сохраните файл Consumer Price.csv на своем компьютере).
В новом проекте, который вы создали, загрузите набор данных (перейдите в Добавить в проект - ›Данные и перейдите к файлу Consumer Price.csv).

Создание потока

Во-первых, вам нужно создать новый поток в Watson Studio. Вы можете сделать это, нажав Добавить в проект - ›Схема моделирования. Введите имя для нового потока и нажмите Создать. Вы увидите пустой холст с палитрой узлов слева.

Импорт данных

На палитре узлов разверните категорию «Импорт» и перетащите узел Data Asset на холст. Затем дважды щелкните узел, чтобы открыть его свойства, и выберите актив данных Потребительские цены. Нажмите Сохранить (обязательно сохраните каждый узел, прежде чем переходить к каждому шагу в этом примере).
Подключите узел Тип (из категории Полевые операции) к узлу Data Asset.

Дважды щелкните узел Тип и нажмите Прочитать значения. Он будет считывать данные из набора данных о потребительских ценах и определять меры значений каждого столбца. Измените роль поля Значения на Цель. Убедитесь, что меры указаны правильно:

Подготовка данных

Подключите узел Выбрать (в разделе «Операции с записью»), который фильтрует записи по заданным условиям. Выберите Включить и введите 'Country or Area' == "United States" в текстовое поле Условие.
Теперь вам нужно преобразовать столбец «Год» в тип даты с помощью узла Заполнитель (в разделе «Операции с полем»). Нажмите Добавить столбцы и выберите Год. Выберите Всегда в раскрывающемся списке под Заменить. В разделе Заменить на введите datetime_date(Year, 01, 01).

Подключите узел Фильтр (в разделе «Операции с полем»), чтобы выбрать соответствующие данные временного ряда для этой модели. В свойствах узла выберите Сохранить выбранные поля (все остальные поля отфильтрованы), а затем нажмите Добавить столбцы, чтобы выбрать Год и Ценность.
Здесь вы можете создать и просмотреть график, подключив узел Временной график (в категории «Графики»). Переименуйте узел в «Потребительские цены в США». Нажмите Добавить столбцы и выберите Значение. Выберите Использовать настраиваемую метку поля оси X и выберите Год в раскрывающемся меню Метка оси X. Снимите флажок Нормализовать, но оставьте другие параметры без изменений. Щелкните правой кнопкой мыши этот узел построения и выберите Выполнить. Вы можете дважды щелкнуть результат, как показано ниже, чтобы просмотреть график.

При предварительном просмотре данных вы заметите, что годы отсортированы с самого последнего года, 2008, вплоть до 1969. Чтобы изменить порядок дат, выберите узел Сортировка ( в разделе Операции записи). В разделе Настройки нажмите Сортировать по и добавьте столбец Год. Оставьте для порядка сортировки по умолчанию значение По возрастанию.
Соедините узел Образец (в разделе «Операции записи») с узлом Сортировка. Переименуйте узел в «Обучающий набор», поскольку вы будете использовать этот узел для выбора обучающей выборки из набора данных. Оставьте параметры по умолчанию как есть и убедитесь, что для параметра Образец выбран вариант Первые n. В качестве первого значения n введите 32. На этом этапе создаются обучающие данные, содержащие значения индекса потребительских цен за 1969–2000 гг. Остальные 8 точек данных (2001–2008 гг.) Будут использоваться в качестве тестового набора позже в этом потоке.

Построение модели

Пришло время обучить вашу модель временных рядов! В категории «Моделирование» на палитре узлов выберите узел Временные ряды и подключите его к узлу Образец (обучающий набор). Переименуйте узел в «ARIMA», так как это алгоритм, который вы будете использовать. В разделе Поля выберите Использовать роли настраиваемых полей. Добавьте столбец Значение в разделе Цели. В разделе Наблюдения и интервалы времени выберите Наблюдения указываются в поле даты / времени. Выберите столбец Год в раскрывающемся списке Поле времени / даты, выберите Годы в качестве временного интервала и введите 1 в поле Приращение на. Оставьте Интервал времени для анализа - это интервал между наблюдениями, выбранный для Настройки временного интервала. Теперь перейдите в раздел Параметры сборки - Общие, чтобы настроить вашу модель. В раскрывающемся списке Параметры модели выберите ARIMA. Нажмите Заказы Arima и укажите заказы, как показано на рисунке ниже:

В разделе Параметры модели узла Временные ряды убедитесь, что для параметра Ширина предела достоверности (%) установлено значение 95%. В разделе Прогноз выберите Расширить записи на будущее и введите 8. Это будут тестовые данные за 2001–2008 гг., Которые вы будете использовать для прогнозирования и сравнения значений. Остальные настройки по умолчанию оставьте как есть.

Нажмите кнопку Выполнить на панели инструментов. Это создает новый узел - слепок модели - присоединенный к узлу ARIMA (временные ряды). Переименуйте этот узел как «Результаты ARIMA».

Подключите узел Слияние (в разделе «Операции записи») к слепку модели ARIMA. Также подключите узел Сортировка к узлу Объединить, как показано на соседнем изображении. Откройте узел Объединить, нажмите Настроить входы и выберите оба исходных узла. В разделе Слияние выберите Ключи в качестве метода слияния. Нажмите Добавить столбцы и выберите один из столбцов с именем Год. Выберите Объединить повторяющиеся ключевые поля. В раскрывающемся списке Присоединиться выберите Частичное внешнее соединение. Нажмите Выбрать набор данных для внешнего соединения и обязательно выберите набор данных, в котором «Подключенный узел» совпадает с именем слепка модели (в данном случае это Результаты ARIMA). . В разделе Фильтр нажмите Настроить поля. Отфильтруйте поля Год и Значение, где «Подключенный узел» - Результаты ARIMA.

Наконец, вы можете подключить выходные узлы, чтобы увидеть результаты модели. Подключите узел Таблица (из категории «Выходы») к узлу Слияние и назовите его «Таблица прогнозов». Кроме того, подключите узел Multiplot (в категории Graph) к узлу Merge и назовите его «Forecast plot». В этом узле выберите Год для поля X и Значение, $ TS-Value, $ TSLCI-Value и $ TSUCI. -Значение для Y полей (непрерывно). Снова запустите поток, чтобы просмотреть выходные данные в таблице и на графике.

Вы можете видеть, что значения индекса потребительских цен были спрогнозированы в столбцах $ TS-Value вместе с верхним и нижним доверительными интервалами ($ TSUCI-Value и $ TSLCI-Value, соответственно). На графике вы можете увидеть, как эти значения сравниваются с исходным столбцом индекса потребительских цен Value.

Сохранение модели

Теперь вы сохраните модель в репозитории WML. Нажмите значок Развернуть модель в правом верхнем углу панели инструментов. Выберите Scoring Branch в качестве режима сохранения и выберите узел Table в качестве узла Branch Terminal. Дайте ему подходящее имя, например Модель временных рядов SPSS, и сохраните модель.

Поздравляю!

Теперь вы создали поток SPSS Modeler в Watson Studio и построили модель временных рядов, которая прогнозирует индекс потребительских цен (ИПЦ). Теперь, когда вы успешно создали и сохранили модель с помощью SPSS Modeler, вы можете узнать, как построить ту же модель, используя код в записной книжке Watson Studio здесь.

Источник данных

UNData: Потребительские цены, общие индексы (2000 = 100). (2010). Получено с http://data.un.org/.