Авторы: Индия Линдси, Томас Шилл, Ли Николл.
Цель любой модели машинного обучения — зафиксировать закономерности, присутствующие в данных, и использовать эти закономерности для точного прогнозирования или классификации результатов как для текущих, так и для будущих наблюдений. Представьте, что вам удалось указать максимально точную и обобщающую модель: как вы уверены, что производительность этой развернутой модели будет стабильной и надежной с течением времени? Если данные, к которым применяется ваша модель, претерпевают значительные изменения:
- Есть ли у вас структура для обнаружения падения производительности модели?
- Будете ли вы предупреждены о смещении дистрибутивов в базовых функциях?
- Можете ли вы определить, когда и где происходят эти изменения?
- Каковы оптимальные данные для переобучения вашей модели? Как следует скорректировать обучающие данные, чтобы обеспечить надежность модели?
Подобные вопросы возникают естественным образом из-за динамического характера данных и непредсказуемости систем. Отношения внутри наборов данных редко бывают статичными. На данные могут влиять изменения внутренних и внешних факторов, будь то изменения в популяции или в методах сбора данных. Когда модель сталкивается с новыми образцами со связями, отсутствующими в обучающих данных, обобщаемость модели находится под угрозой.
Эти изменения, называемые дрейфом, угрожают надежности и точности развернутых моделей. К счастью, существует быстро развивающаяся область искусственного интеллекта (ИИ), предназначенная для обнаружения и смягчения таких изменений: обнаружение дрейфа. Обнаружение отклонений – это направление машинного обучения (МО), ориентированное на отслеживание и обнаружение отклонений либо в производительности контролируемой модели, либо в распределении переменных в наборе данных.
Какие типы дрейфа могут возникнуть?
Дрейф обычно подразделяется на четыре формы в зависимости от того, как новая концепция заменяет предыдущую концепцию. Он может быть внезапным, когда сдвиг происходит резко. Это может быть пошаговое, при котором изменения происходят плавно в течение переходного периода. Дрейф может происходить постепенно, когда данные резко меняются между новой концепцией и исходным состоянием, пока новая концепция медленно не заменит старую концепцию. Наконец, дрейф может быть повторяющимся, при котором старая концепция может снова появиться через некоторое время [1].
Дрейф может проявляться в любой из этих форм, либо в целевой переменной, либо в данных — это называется дрейфом концепции и данных соответственно.
Дрейф концепции может возникнуть, когда на производительность модели влияют изменения целевой переменной, функций или того и другого [2].
Дрейф данных соответствует сдвигам, происходящим исключительно в распределении признаков [2]. Изменение распределения признаков может проявляться в виде изменений статистики, например диапазона, среднего значения, стандартных отклонений или корреляций между ними. Некоторые детекторы дрейфа данных могут обнаруживать изменения в отношениях между несколькими функциями в дополнение к обнаружению изменений в распределении отдельных функций.
Какие типы алгоритмов обнаружения дрейфа существуют?
Алгоритмы обнаружения дрейфа стремятся идентифицировать дрейф данных и/или дрейф концепций. Неконтролируемые методы могут обнаруживать дрейф данных и требуют доступа только к базовым функциям. Контролируемые и полуконтролируемые методы могут обнаруживать дрейф концепций, при этом для первых требуется доступ ко всем прогнозируемым и фактическим результатам, а для вторых требуется доступ только к подмножеству истинных меток [1].
Алгоритмы обнаружения дрейфа обычно предназначены для обработки потоковых или пакетных данных.
При настройке потоковой передачи данные поступают в виде непрерывного процесса, и каждое наблюдение может быть связано с уникальной отметкой времени, например, с покупками, сделанными на сайте электронной коммерции. Потоковые детекторы дрейфа обрабатывают каждую новую наблюдаемую точку данных и предназначены для случаев использования, когда желательны «живые» аналитические результаты.
В пакетной настройке информация собирается в течение определенного периода времени. Как только набор «заполнен», данные вводятся и обрабатываются алгоритмом обнаружения дрейфа как единый пакет. В пакете нет осмысленного упорядочения данных по времени. Примером пакетных данных являются налоговые декларации, в которых каждая точка данных связана с определенным налоговым годом, а не с конкретным временем подачи. Пакетные алгоритмы обычно используются, когда важнее обрабатывать большие объемы информации одновременно, когда скорость результатов после получения данных не имеет большого значения.
Почему важно обнаружение дрейфа?
Надежный и надежный ИИ становится все более заметной проблемой в развернутых системах [3]. Многие предприятия и учреждения полагаются на машинное обучение для автоматизации процессов и помощи в принятии решений. Чтобы обеспечить устойчивое использование этих моделей, необходимо обеспечить их надежность и точность.
Алгоритмы обнаружения дрейфа могут играть ключевую роль в структуре мониторинга ИИ, как индикатор «проверить двигатель» автомобиля. Методология дрейфа концепции может помочь пользователям обнаружить, когда происходит дрейф, понять, как меняется модель, и адаптироваться к новой концепции с помощью модели. переподготовка.
Детекторы дрейфа данных предупреждают исследователей о появлении новой концепции в их наборах данных. Эти результаты могут заблаговременно обеспечить надежные решения по моделированию и улучшить понимание изменений совокупности данных.
Как вы можете справиться с дрифтом?
Обнаружение дрейфа является относительно новой и развивающейся областью. Алгоритмы обнаружения дрейфа становятся все более доступными в открытом коде. Три библиотеки, предлагающие возможности обнаружения дрейфа, включают River, Massive On-line Analysis (MOA) и Menelaus.
MOA [4] и River [5] предлагают набор методов добавочного обучения, предназначенных для потоковой передачи данных, ориентированных на регрессию, классификацию и обучение без учителя, в дополнение к задачам дрейфа понятий. Menelaus [6] представляет собой исключительно библиотеку обнаружения дрейфа, предлагающую алгоритмы, способные обнаруживать дрейф концепции и данных как в пакетных, так и в потоковых данных. В таблице ниже приведены основные различия, существующие между этими пакетами на дату публикации этой статьи.
Ресурсы, чтобы узнать больше
Чтобы узнать больше о дрейфе концепций и увидеть пример алгоритма обнаружения дрейфа концепций, поддерживающего производительность модели, ознакомьтесь с этой статьей.
Чтобы узнать больше о дрейфе данных и увидеть пример алгоритма обнаружения дрейфа данных, определяющего, когда и как набор данных меняется с течением времени, ознакомьтесь с этой статьей.
Использованная литература:
- Дж. Лу, А. Лю, Ф. Донг, Ф. Гу, Дж. Гама и Г. Чжан, «Обучение в условиях дрейфа понятий: обзор», IEEE Transactions on Knowledge and Data Engineering, vol. 31, нет. 2019. Т. 12. С. 2346–2363. doi: 10.1109/ТКДЭ.2018.2876857.
- Соуза В., Дос Рейс Д. М., Малетцке А. Г., Батиста Г. Э., «Проблемы сравнительного анализа алгоритмов потокового обучения с реальными данными», Data Mining and Knowledge Discovery, vol. 34, нет. 6, стр. 1805–1858, 2020.
- Счетная палата правительства США, «Искусственный интеллект: система подотчетности федеральных агентств и других организаций», Типография правительства США, Вашингтон, округ Колумбия, публикация 21–519SP, 2021 г.
- А. Бифет и др., MOA: массовый онлайн-анализ, основа для классификации потоков и кластеризации, в материалах первого семинара по приложениям анализа шаблонов, сентябрь 2010 г., том. 11, стр. 44–50. [В сети]. Доступно: https://proceedings.mlr.press/v11/bifet10a.html
- Дж. Монтьель и др., Река: машинное обучение для потоковой передачи данных в Python, Журнал исследований машинного обучения, том. 22, нет. 110, стр. 1–8, 2021 г., [онлайн]. Доступно: http://jmlr.org/papers/v22/20-1380.html
- Л. Николл, Т. Шилл, И. Линдсей, А. Шривастава, К. П. Макнамара и С. Джармале, Менелай. Корпорация MITRE, 2022. [Онлайн]. Доступно: https://github.com/mitre/menelaus
Одобрено для публичного выпуска; Распространение без ограничений. Публичный выпуск, номер дела 22–3165 © 2022 The MITRE Corporation. ВСЕ ПРАВА ЗАЩИЩЕНЫ.