Существующая система обнаружения в реальном времени заставляет операторов реагировать на действия

Surbana Jurong (SJ) сотрудничала с PUB, Национальным водным агентством Сингапура, для создания и доставки модуля прогнозирования для одного из заводов по очистке питьевой воды в Сингапуре. Эта водная станция оснащена традиционной системой диспетчерского управления и сбора данных (SCADA), развернутой для мониторинга качества воды в режиме реального времени в процессе очистки.

Однако, поскольку процесс очистки воды непрерывен, любые аномалии, обнаруженные SCADA, часто переводят операторов в реактивный режим. В случае, если операторы не смогли вовремя устранить эти аномалии, возможно, потребуется рециркуляция загрязненной воды в процессе очистки, что приведет к потерям.

Поэтому перед SJ была поставлена ​​задача создать и поставить модуль прогнозирования поверх существующей SCADA, чтобы снабдить операторов предприятия аналитическими данными, основанными на данных, для прогнозирования аномалий воды.

Обычные метрики прогнозной оценки в этом случае могут вводить в заблуждение

Точность, точность, полнота и оценка F1 являются наиболее распространенными категориальными метриками оценки производительности машинного обучения. Все четыре показателя имеют максимальное значение 1, а значения, близкие к 1, указывают на лучшую производительность.

Наша первоначальная оценка моделей прогнозирования временных рядов дала очень высокие оценки по всем четырем показателям (как показано в таблице ниже).

На первый взгляд, приведенная выше модель показала себя очень хорошо с показателями производительности, близкими к 0,90. Однако, если мы более внимательно посмотрим на временные ряды предсказаний по сравнению с реальными фактами, основная проблема станет ясной.

Хотя эта модель давала правильные прогнозы в 89% случаев, мы видим, что модель всегда «запаздывала» (около 30 минут в приведенном выше примере). Он постоянно запаздывал с определением начала аномального периода, а также с опозданием в предсказании окончания аномального периода.

В других прогнозах временных рядов (таких как прогноз цен акций) точность и полнота 89% были бы замечательными показателями. Тем не менее, в данном проекте такая модель была бы скорее неактуальна. В тот момент, когда возникали аномалии, система SCADA обнаруживала их, и операторы были предупреждены. Затем модель прогнозирования невольно превратилась в пресловутого попугая, «предупреждающего» операторов завода о чем-то, что они уже знали и начали работы по исправлению положения.

Таким образом, ключевым моментом для модели является своевременное предсказание первого случая аномалий, особенно после длительных периодов «спокойствия». Это потребовало введения индивидуальной метрики производительности, которую мы назвали «первое появление».

Индивидуальный показатель эффективности для количественной оценки раннего оповещения: первое появление

Нам интересно понять, насколько вероятно, что модель может дать нам предварительное предупреждение в первый раз, когда качество воды выходит за пределы допустимого диапазона. Первое возникновение сформулировано для оценки того, сколько случаев аномалий воды прогнозируется в самом начале аномального периода.

Концептуально первое появление похоже на припоминание. Вместо оценки производительности на основе каждого показания при первом появлении несколько строк показаний оцениваются как один блок инцидента, выходящего за пределы допустимого диапазона. Затем возникает проблема, как сгруппировать положительные показания в блоки и определить блоки раннего оповещения.

Группировка положительных показателей в блоки в соответствии с их относительным временным интервалом:

Как правило, качество воды постепенно ухудшается с течением времени. Показания могут ухудшиться, но колебаться вокруг нормальных и аномальных границ, что приводит к прерывистым аномальным показаниям, особенно в начале и в конце инцидента, выходящего за пределы допустимого диапазона. Если бы мы использовали двоичный порог для определения аномалий, один фактический инцидент, выходящий за пределы допустимого диапазона, будет интерпретироваться как несколько коротких всплесков инцидентов.

Используя гештальт-закон близости и закон замыкания [1], мы группируем несколько фрагментов аномалий на основе их близости, то есть временного интервала между двумя фрагментами аномальных показаний, эффективно объединяя эти несколько коротких всплесков аномальных показаний в один кластер, имитируя человек-оператор; интерпретация результатов.

Алгоритмически, если качество воды было в пределах нормы в течение последнего часа, мы рассматриваем следующее значение, выходящее за пределы диапазона, как начало нового положительного блока. Когда качество воды возвращается к норме в течение более часа, последнее ненормальное показание считается концом положительного блока.

Оценка за раннее оповещение:

На приведенной выше диаграмме показано, как первое вхождение используется в качестве показателя производительности для моделей прогнозирования. Для блока аномалий модель успешно предсказала водные аномалии до того, как качество воды выйдет за пределы допустимого диапазона. Несмотря на то, что прогноз моделей может быть не абсолютно точным на точечной основе (выделено красным прямоугольником выше), мы посчитали это ранним предупреждением, поскольку прогнозы аномалий появились раньше фактического инцидента, что дало столь необходимое время для решения проблемы. аномалии в постоянно проточной водной установке.

Устранение дисбаланса классов за счет дополнительного внимания на начальной стадии ненормального события

Во время исследования и предварительной обработки данных был обнаружен дисбаланс данных, при этом только ‹ 1% данных были классифицированы как аномальные. Мы попытались использовать общие подходы к устранению дисбаланса классов, включая недостаточную выборку, избыточную выборку и корректировку весов классов. Однако эти методы не показали улучшения метрики первого появления.

Основная проблема снова возвращается к тому, что не все аномалии одинаково важны в этом варианте использования. Возможность обнаружить первый случай аномалии гораздо важнее для операторов, чем аномалии из любого другого периода времени. Следовательно, чтобы уделить больше внимания аномалиям в начальной фазе аномального события, начальной фазе блока аномалий назначается самый высокий вес, средний вес для остальных аномалий и самый низкий вес для показаний в пределах нормального диапазона. При таком подходе нам удалось удвоить производительность модели при первом появлении при проверке, и модель готова к тестированию в среде развертывания.

Регулярно переобучайте модель, чтобы поддерживать ее в актуальном состоянии

Еще одним ключевым моментом, который можно извлечь из этого проекта, является снижение производительности этой модели с течением времени в производственной среде. Было обнаружено, что это ухудшение связано с дрейфом концепций и данных, что иногда приводило к изменению основного распределения данных. Хотя всестороннее исследование основной причины этого дрейфа не входило в объем этого проекта, мы предположили, что потенциальная причина может быть связана с неустойчивой погодой и сезонными изменениями тропического климата Сингапура.

Это сильно повлияло на наш подход к моделированию. Мы узнали, что развернутые модели необходимо регулярно переобучать, чтобы узнавать о любом отклонении во взаимосвязи между входными характеристиками и качеством воды. На ум пришли три вопроса: (1) Должна ли модель обновляться постепенно или ее следует каждый раз переобучать с нуля? (2) Сколько данных следует использовать при переобучении? (3) Как часто следует переобучать модель? Мы провели тщательные испытания и протестировали несколько сценариев, чтобы ответить на эти вопросы, и они будут обсуждаться в следующих подразделах.

Модель переобучения с нуля:

Модель переобучения с нуля превзошла онлайн-обучение. Поскольку продолжительность между аномальными событиями может составлять более 30 дней, могут быть случаи, когда в последних пакетах обучающих данных не было аномалий. Это усугубило проблему дисбаланса классов и серьезно снизило способность моделей обнаруживать аномальные события. Благодаря переобучению модели с нуля мы сохранили больший контроль над составом обучающих данных.

Добавление исторических аномальных данных в обучающую выборку:

Данные переобучения состоят из двух компонентов: самых последних данных за 30 дней и исторических аномалий за 30 дней, произошедших до последних 30 дней. Благодаря добавлению большего количества исторических аномалий к обучающим данным с соотношением 1 к 1 влияние дисбаланса классов на модель было смягчено, а также была решена проблема отсутствия аномальных событий в течение последних 30 дней.

Модель переобучается каждые 30 минут:

Испытания показали, что производительность модели улучшается при более частом переобучении. Казалось интуитивно понятным, что при более частом переобучении модели модель лучше соответствовала последним тенденциям. Следовательно, в идеале следует проводить переподготовку как можно чаще. Однако, поскольку это была локальная реализация, нам пришлось учитывать ограниченные доступные вычислительные ресурсы, которые нужно было распределить между несколькими параллельными моделями. Поэтому мы запланировали повторное обучение каждой модели с интервалом в 30 минут, чтобы сбалансировать вычислительную нагрузку и обеспечить целостность решения в целом.

Развертывание модели с первым появлением 72 %

При регулярном переобучении моделей модель достигла разумных результатов, основанных на исторической проверке с данными за несколько месяцев.

Был создан сквозной конвейер для интеграции моделей в рабочий процесс оператора. Показания из SCADA отправлялись в хранилище в режиме реального времени. Планировалось, что модели будут переобучаться каждые 30 минут и регулярно прогнозировать качество воды. Любой показатель качества воды, который, согласно прогнозам, выйдет за пределы допустимого диапазона, будет доводиться до сведения операторов.

Заключение

Реальная разработка моделей для реальных вариантов использования сильно отличается от теоретических и академических исследований проектов по науке о данных. При разработке реальных моделей крайне важно четко понимать бизнес-требования от пользователей и ориентироваться на данные. Негласные бизнес-правила и методы часто могут выявить основные проблемы пользователей, и нам необходимо адаптировать наши решения для обработки данных в соответствии с потребностями клиентов.

Старая добрая поговорка о науке о данных «мусор на входе, мусор на выходе» должна быть в глубине души всех специалистов по данным. Шумные данные реального мира, данные низкого качества ограничивали производительность модели, а утечка данных приводила к нереально высокой производительности модели. Если вы сомневаетесь в таких характеристиках, вернитесь назад, чтобы изучить данные.

Наконец, шаг исследования данных очень полезен для создания ощущения распределения данных и понимания ограничений модели. Такое понимание значительно упрощает обнаружение аномальных данных о распределении и упрощает развертывание моделей в других условиях.

Об авторе

Вивиан работает исполнительным специалистом по данным в Surbana Technologies. Она с отличием окончила факультет математики и психологии Наньянского технологического университета в Сингапуре и в настоящее время получает степень магистра статистики в Национальном университете Сингапура.

Проявляя большой интерес к анализу данных и машинному обучению, она начала свою карьеру в качестве инженера по машинному обучению в сфере медицинских технологий. Она использовала статистическую аналитику, компьютерное зрение и глубокое обучение, чтобы предоставить решение для обработки медицинских изображений и провела клинические испытания. В свободное время она любит изучать различные культуры, путешествуя и фотографируя.

[1] Дж. К. Банерджи, «Гештальт-теория восприятия», в Энциклопедическом словаре психологических терминов, MD Publications Pvt. Ltd., 1994, стр. 107–109.