Аномалии можно определить как наблюдения, которые достаточно отклоняются от большинства наблюдений в наборе данных, чтобы считать, что они были вызваны другим, не нормальным, генеративным процессом. Аномалия - это любое наблюдение, которое настолько отличается от других наблюдений в наборе данных, что вызывает подозрение. Короче говоря, аномалии - это редкие и существенно разные наблюдения в пределах набора данных.

Алгоритмы обнаружения аномалий теперь используются во многих областях приложений для обнаружения вторжений, обнаружения мошенничества, предотвращения утечки данных, качества данных, наблюдения и мониторинга. Как мы видим, это широкий спектр приложений, некоторые из них требуют очень быстрого обнаружения аномалий в режиме, близком к реальному времени, тогда как некоторые требуют очень высокой производительности из-за высокой стоимости пропуска аномалии. Методы обнаружения аномалий чаще всего используются для обнаружения мошенничества, когда злонамеренные попытки / транзакции часто отличаются от большинства номинальных случаев. Ниже описаны различные типы аномалий:

Точечная аномалия: единичные аномальные экземпляры в большом наборе данных.

Коллективная аномалия. Если аномальная ситуация представлена ​​как набор из множества экземпляров, это называется коллективной аномалией.

Контекстная аномалия: при контекстных аномалиях точка может рассматриваться как нормальная, но если принять во внимание данный контекст, точка оказывается аномалией.

Алгоритмы обнаружения аномалий

Решение для обнаружения аномалий может быть основано на всех трех типах методов машинного обучения - контролируемом, полу-контролируемом и неконтролируемом, в зависимости от типа доступных данных. Алгоритмы контролируемого обучения могут использоваться для обнаружения аномалий, когда аномалии уже известны и помеченные данные доступны. Эти методы особенно дороги, когда маркировку приходится производить вручную. Алгоритмы несбалансированной классификации, такие как машины опорных векторов (SVM) или искусственные нейронные сети (ANN), могут использоваться для контролируемого обнаружения аномалий.

Полу-контролируемое обнаружение аномалий использует помеченные данные, состоящие только из нормальных данных без каких-либо аномалий. Основная идея состоит в том, что модель нормального класса изучается, и любые отклонения от этой модели можно назвать аномалиями. Популярные алгоритмы: автокодеры, модели гауссовой смеси, оценка плотности ядра.

Для обнаружения аномалий чаще всего используются методы неконтролируемого обучения, в следующей таблице представлены основные семейства алгоритмов и алгоритмов, которые можно использовать для обнаружения аномалий.

K-Nearest Neighbor (kNN): kNN - это метод, основанный на соседстве, который в первую очередь был разработан для выявления выбросов. Для каждой точки данных исследуется весь набор точек данных, чтобы выделить k элементов, которые имеют наиболее похожие значения характеристик: это k ближайших соседей (NN). Затем точка данных классифицируется как аномальная, если большая часть NN была ранее классифицирована как аномальная.

Фактор локальных выбросов (LOF): Фактор локальных выбросов - это основанный на плотности метод, предназначенный для поиска локальных аномалий. Для каждой точки данных вычисляется NN. Затем, используя вычисленную окрестность, вычисляется локальная плотность как плотность локальной достижимости (LRD). Наконец, оценка LOF вычисляется путем сравнения LRD точки данных с LRD ранее вычисленной NN.

Фактор выброса на основе связности (COF): Фактор выброса на основе связности (COF) отличается от LOF при вычислении плотности точек данных, поскольку он также учитывает связи между точками данных. В такой степени этот метод использует подход кратчайшего пути, который вычисляет расстояние цепочки с использованием минимального остовного дерева.

K-средние. Кластеризация K-средних - это популярный алгоритм кластеризации, который группирует точки данных в k кластеров по их значениям признаков. Баллы каждой точки данных внутри кластера рассчитываются как расстояние до его центроида. Точки данных, которые находятся далеко от центра тяжести кластеров, помечаются как аномалии.

Робастный анализ главных компонентов (rPCA): Анализ главных компонентов - это широко используемый метод для обнаружения подпространств в наборах данных. Он также служит методом обнаружения аномалий, так что отклонения от нормальных подпространств могут указывать на аномальные случаи. После определения основных компонентов основные компоненты показывают глобальные отклонения от большинства данных, тогда как использование второстепенных компонентов может указывать на меньшие локальные отклонения.

One Class SVM: Одноклассовый алгоритм машины опорных векторов нацелен на изучение границы принятия решения для группировки точек данных. Его можно использовать для неконтролируемого обнаружения аномалий, SVM одного класса обучается с набором данных, а затем каждая точка данных классифицируется с учетом нормализованного расстояния точки данных от определенной границы решения.

Isolation Forest: Isolation Forest структурирует точки данных как узлы дерева изоляции, предполагая, что аномалии - это редкие события со значениями характеристик, которые сильно отличаются от ожидаемых точек данных. Следовательно, аномалии более подвержены изоляции, чем ожидаемые точки данных, поскольку они изолированы ближе к корню дерева, а не к листьям. Отсюда следует, что точку данных можно изолировать, а затем классифицировать в соответствии с ее расстоянием от корня дерева.

Обнаружение выбросов на основе углов (ABOD): обнаружение выбросов на основе углов (ABOD) связывает данные с пространствами большой размерности, используя разницу в углах между точкой данных и другими точками в качестве оценки аномалии. Метод обнаружения выбросов на основе углов (ABOD) является хорошей альтернативой для выявления выбросов в многомерных пространствах.

Расстояние Махаланобиса: метод Махаланобиса использует исключительно расстояние, на котором отмечаются выбросы. Расстояние Махаланобиса подходит для задач обнаружения аномалий, нацеленных на многомерные наборы данных, состоящие из одного кластера гауссовой формы. Параметры модели - это среднее значение и матрица обратной ковариации данных.

Нейронные сети, такие как самоорганизующиеся карты. Также называемая сетью Grow when Required (GWR), это непараметрическая нейронная сеть, основанная на реконструкции. Он соответствует графу адаптивной топологии, лежащему во входном пространстве для набора данных. С помощью этого метода правильно идентифицируются сильные выбросы и плотные облака выбросов.

Модели смеси Гаусса: Модель смеси Гаусса (GMM) соответствует заданному количеству гауссовых распределений в наборе данных. Модель обучается с использованием алгоритма максимизации ожидания, который итеративно максимизирует нижнюю границу правдоподобия. Оценка количества компонентов смеси путем исследования данных может быть сложной задачей.

Автокодировщики: автокодировщик - это особый тип нейронной сети, которая копирует входные значения в выходные значения. Ключевая идея состоит в том, чтобы обучить набор автокодировщиков изучать нормальное поведение данных и после обучения использовать их для выявления ненормальных условий или аномалий.

Сравнительная оценка алгоритмов

Выбор алгоритма обнаружения аномалий - это сложное действие с множеством соображений: тип аномалии, доступные данные, производительность, потребление памяти, масштабируемость и надежность.

Метрики производительности для моделей обнаружения аномалий в основном основаны на логических метках аномалии / ожидаемых метках, присвоенных данной точке данных, таких как точность, отзыв, F-оценка, точность и AUC. На изображении ниже из исследовательской статьи: Количественное сравнение алгоритмов неконтролируемого обнаружения аномалий для обнаружения вторжений показано относительное быстродействие семейств алгоритмов по сравнению с показателями производительности.

Время обучения и прогнозирования. О масштабируемости и потреблении модели можно судить по времени вычислений и прогнозирования, требуемому различными методами при увеличении размера и размерности набора данных. Приведенные ниже графики из бумаги: Сравнительная оценка алгоритмов обнаружения выбросов: эксперименты и анализ подчеркивают относительную производительность алгоритмов в отношении увеличения количества функций, времени обучения и времени прогнозирования.

Надежность и масштабируемость. Многие методы обнаружения аномалий страдают от проклятия размерности. Важно проверить устойчивость каждого алгоритма к проклятию размерности, где мы сохраняем фиксированный уровень фонового шума при увеличении размерности набора данных. На приведенном ниже графике из бумаги: Сравнительная оценка алгоритмов обнаружения выбросов: эксперименты и анализ подчеркивает относительную производительность алгоритмов в отношении увеличения количества функций и средней точности.

Использование памяти: некоторые алгоритмы имеют высокие требования к памяти, поэтому выбор алгоритма следует производить осторожно, с должным учетом требований к доступному оборудованию и масштабируемости. На приведенном ниже графике из бумаги: Сравнительная оценка алгоритмов обнаружения выбросов: эксперименты и анализ подчеркивает относительную производительность алгоритмов в отношении увеличения количества функций и использования памяти.

Точно так же в другой статье, Сравнительная оценка алгоритмов неконтролируемого обнаружения аномалий для многомерных данных, были опубликованы многочисленные результаты сравнительной универсальной оценки алгоритмов обнаружения аномалий на общедоступных наборах данных. В следующей таблице содержатся рекомендации из этого документа, где 19 различных алгоритмов неконтролируемого обнаружения аномалий оцениваются на 10 различных наборах данных из нескольких доменов приложений.

Использованная литература: