Введение в прогнозный мониторинг процессов

Прогнозирующий мониторинг процессов используется для прогнозирования будущего и оптимизации рабочих процессов с использованием данных. В этой статье дается краткое введение в эту захватывающую область машинного обучения.

Процессы вокруг нас. От больничных процессов до коммерческих процессов, мы не можем обойти это. Процесс, как правило, представляет собой цепочку событий с участием ряда действующих лиц или объектов, приводящих к определенному результату или состоянию. В современном цифровом обществе мы сохраняем все эти процессы в базах данных и журналах транзакций. В этой статье показано, что можно сделать с этими процессами для оптимизации рабочих процессов с помощью прогнозирующего мониторинга процессов (PPM).

Область предиктивного мониторинга процессов

PPM — это форма машинного обучения, в которой предыдущие события используются для прогнозирования будущего. Он имеет широкий спектр применений, начиная от увеличения доходов в коммерческих условиях и заканчивая улучшением ухода за пациентами в больницах.

Задачи предиктивного мониторинга процессов

У PPM обычно две задачи, а именно предсказание и предписание. Сначала поговорим о прогнозировании. Предсказание используется для предсказания определенного результата процесса. Подумайте, например, о посетителе платформы электронной коммерции, который хочет совершить покупку. Основываясь на товарах в корзине и других выполненных действиях, можно сделать прогноз, собирается покупатель что-то купить или нет. Алгоритмы классификации и регрессии могут использоваться для прогнозирования этих результатов.

Вторая задача – предписание. Эта задача посвящена оптимизации рабочего процесса. Подумайте, например, о пациенте в больнице. Цель больницы — как можно быстрее удерживать пациентов. Основываясь на различных медицинских процедурах и состоянии пациентов, можно сделать рецепт на лучшую следующую медицинскую процедуру. Это предписание должно быть оптимальной процедурой, которую врачи могут выполнить, исходя из кратчайшего оставшегося времени пребывания пациента в больнице.

Предиктивный мониторинг процессов по сравнению с анализом процессов

Прогнозирующий мониторинг процессов часто путают с анализом процессов (PM). Одно не исключает другого, и часто используется вместе. Однако между ними есть разница. Разница между PPM и PM в том, что PM смотрит в прошлое и пытается проанализировать, почему это произошло. Это больше касается получения знаний и понимания процессов. Управление проектами может очень помочь организациям в сборе информации из систем и предоставлении основанной на данных информации о производительности. С другой стороны, PPM смотрит в будущее и пытается давать рекомендации и оптимизировать рабочий процесс.

Рабочий процесс прогнозирующего мониторинга процессов

Рабочий процесс PPM значительно отличается от задачи обучения с учителем. Основное отличие заключается в этапах предварительной обработки. Выбор моделей примерно одинаковый. Как правило, рабочий процесс PPM состоит из следующих шагов.

Извлечение префикса
Ведро
Кодирование последовательности
Выбор модели

Извлечение префикса

Наборы данных PPM часто состоят из строк, представляющих отдельные события, и столбцов, представляющих информацию о событиях. События происходят последовательно, и все события для одного экземпляра (например, человека) называются журналами событий.

Основная идея извлечения префиксов заключается в создании строк последовательностей на основе одного журнала событий. Это позволяет делать прогнозы и предписания не только для завершенных событий, но и для событий, которые еще не завершились. Это также может быть решением для нехватки данных.

Префиксы составляются в зависимости от длины журналов событий. Невозможно извлечь все префиксы для журналов событий, состоящих из множества последовательных событий. Также нереально извлечь все префиксы, особенно в больших журналах событий. Изображение ниже из Dr. Irene Teinemaa демонстрирует интуитивную идею.

Ведро

Алгоритмы машинного обучения тратят огромное количество времени на обучение журналов событий. Журналы событий могут состоять из миллионов строк, что чрезвычайно усложняет вычисления. Разделение на группы — это процесс помещения извлеченных префиксов в разные группы. Это может быть полезно, потому что вы можете обучать несколько моделей параллельно. Ведра могут быть основаны на нескольких методах. Двумя наиболее часто используемыми методами являются длина префикса и кластеризация.

Первый метод основан на длине префикса. Прогнозирование для префиксов длиной 2 сильно отличается от префиксов длиной 20. Помещая префиксы в сегменты в зависимости от длины, можно обучить несколько классификаторов, что, вероятно, приведет к повышению производительности. Второй метод кластеризации, при котором корзины основаны на результатах определенного кластерного алгоритма.

Однако группирование не всегда необходимо и очень зависит от поставленной задачи. Основной способ выяснить, что подходит для вашего набора данных, — это экспериментировать. Изображение ниже из Dr. Irene Teinemaa демонстрирует интуитивную идею.

Кодирование последовательности

Чтобы делать правильные прогнозы и предписания, алгоритм должен знать больше о событии, чем просто о событии. Предыдущие состояния очень важны, потому что они дают своего рода контекст. Последовательное кодирование делает именно это. Для этого существует несколько методов, но наиболее часто используются два метода: кодирование последнего состояния и кодирование агрегации.

Кодирование последнего состояния

Первый метод кодирования последовательности - это кодирование последнего состояния. Основная идея состоит в том, что только последнее событие имеет значение и указывает на состояния кейса, предыдущие события менее важны. К текущему событию добавляется только последнее произошедшее событие. В результате для каждого события появляется дополнительный столбец, как показано на рисунке ниже.

Кодирование агрегации

Следующим методом кодирования последовательности является кодирование агрегации. Основная идея состоит в том, что все прошлые события могут иметь значение и влиять на будущее состояние дела. Все предыдущие события объединяются для каждого события. Это делается с помощью горячего кодирования и объединения всех событий в следующие события для одного случая. В результате получается следующая таблица:

Выбор модели

Последним шагом в рабочем процессе PPM является фактический выбор модели и ее обучение. Важно спросить себя, чего вы хотите достичь с помощью своей модели. Вы хотите предсказать следующее событие, или сделать рецепт о том, какое следующее событие принять. Существует огромное количество алгоритмов, которые можно применять, каждый со своими особенностями.

Однако основы очень похожи на другие наборы задач машинного обучения. Данные разделяются на данные обучения и тестирования, после чего модель обучается на данных обучения, а метрики оценки рассчитываются на данных тестирования.

Например, можно использовать модели классификации для прогнозирования следующего лучшего шага (если он доступен во время обучения) или модели регрессии для прогнозирования оставшегося времени журнала событий. Это также может быть в сочетании с (глубокими) нейронными сетями. Существуют также модели прогнозирования, такие как модели временных рядов, которые предсказывают результаты в различных бизнес-условиях. Однако подробное описание различных алгоритмов выходит за рамки этой вводной статьи.

Заключение

Прогнозирующий мониторинг процессов — захватывающая область машинного обучения. Он имеет множество применений, начиная от коммерческих условий и заканчивая больницами. Рабочий процесс процесса PPM немного отличается от обычных проблем машинного обучения, которые вы, возможно, знаете. Извлечение префикса, группировка и кодирование последовательности — это шаги, которые могут потребоваться для обучения оптимальной модели. Выбор модели очень похож на другие наборы задач машинного обучения, начиная от классификации и заканчивая кластеризацией и прогнозированием.