Обзор методов обнаружения аномалий достаточно широко освещает эту тему. В этом посте я попытался осветить темы, обсуждаемые в этой статье, в этих сжатых заметках —

Виды аномалий -

  1. Точечные аномалии
  2. Контекстные аномалии
    – Контекстные атрибуты
    – Поведенческие атрибуты
  3. Коллективные аномалии

Проблема точечной аномалии и проблема коллективной аномалии могут быть преобразованы в контекстуальные аномалии при рассмотрении контекстуальных переменных.
Контролируемые, полуконтролируемые и неконтролируемые методы обнаружения аномалий. Выходными данными моделей обнаружения аномалий являются либо баллы, либо метки.
Некоторые приложения обнаружения аномалий, описанные в статье:

Обнаружение вторжений
Понятие — эта проблема обнаруживает ненормальное поведение в системе. Это включает в себя точечные аномалии, такие как системы обнаружения сетевых вторжений, и коллективные аномалии, такие как система обнаружения вторжений на основе хоста.
Характер данных — огромный объем данных, обычно в потоковом режиме.
Проблемы. Необходимо эффективное вычислительное решение из-за большого количества данных. Частота ложных срабатываний может быть огромной.
Существующие методы — в основном полуконтролируемые или неконтролируемые методы.

Обнаружение мошенничества
Понятие. Эта проблема обнаруживает аномалии, как правило, на основе методов профилирования транзакций и пользователей. Наряду с обнаружением мошенничества с кредитными картами и мошенничеством со страховкой, эти методы также включают такие проблемы, как инсайдерская торговля.
Характер данных — в этих системах обычно доступны маркированные и полные данные. Как правило, эти данные носят временной характер.
Проблемы — требуется онлайновая система обнаружения. Вычислительные ресурсы, необходимые для таких систем, различаются в зависимости от переменных контекста, используемых в таких системах.
Существующие методы — в этом случае используются контролируемые методы профилирования и кластеризации. В этой системе могут использоваться алгоритмы обнаружения последовательности. Статистическое профилирование, смешанные модели, системы на основе правил или машины опорных векторов используются в этой категории обнаружения аномалий.

Обнаружение медицинских аномалий
Понятие — аномалии вносятся в записи по разным причинам, включая аномальное состояние пациента, ошибку приборов или вспышку заболевания.
Природа данных. Данные имеют несколько типов характеристик и могут потребовать высокой степени обработки данных, прежде чем их можно будет обрабатывать алгоритмами машинного обучения.
Проблемы — Данные Вопросы конфиденциальности очень важны при работе с данными обнаружения медицинских аномалий. В последнее время в этой области используются объяснимые системы машинного обучения.
Существующие методы. Большинство методов включают обнаружение точечных аномалий. Большинство методов адаптируются к полуконтролируемому подходу, поскольку выборка данных может быть искажена. Методы, используемые для этой категории, включают ближайших соседей, обнаружение на основе правил, байсовские методы и т. д.

Обнаружение промышленных повреждений
Понятие — повреждения обнаруживаются с использованием данных датчика. Производственные повреждения бывают двух типов — Обнаружение неисправностей и дефектов в конструкциях.
Характер данных— Данные в этой области имеют временной аспект и требуется оперативная обработка данных датчика.< br /> Проблемы. Для выполнения превентивных мер в онлайновой системе обнаружения аномалий требуются функции прогнозирования.
Существующие методы — для обнаружить коллективные аномалии. В этой области полезны методы обнаружения новизны или точки изменения. Методы, используемые при обнаружении неисправностей, представляют собой параметрическое или непараметрическое статистическое моделирование, спектральные системы и системы, основанные на правилах. Методы, используемые для обнаружения структурных повреждений, представляют собой статистическое профилирование с использованием гистограмм и смешанных моделей.

Обработка изображений
Понятие. Задачами обнаружения аномалий при обработке изображений являются либо системы обнаружения движения, либо системы обнаружения аномальных областей на статическом изображении.
Характер данных — большой объем входных данных со специальными или временными зависимостями. Данные имеют несколько непрерывных атрибутов, таких как цвет, яркость и т. д.
Проблемы — иногда требуются онлайновые методы обнаружения аномалий. Еще одной проблемой при работе с данными изображений является большой объем входных данных.
Существующие методы — Нейронные сети и смешанные модели используются для систем обнаружения аномалий на основе изображений. В случае задачи обучения с полуучителем также используются методы кластеризации и ближайшего соседа.

Методы обнаружения аномалий используются во многих других областях, таких как предсказание кликов, обнаружение ошибок в веб-приложениях, обнаружение аномалий в астрономических данных и т. д. В документе перечислены примеры реализации каждого такого метода.

Теперь мы подробно рассмотрим методы, используемые для обнаружения аномалий.

Системы на основе классификации –
В зависимости от меток алгоритмы классификации подразделяются на два типа — одноклассовая система классификации или многоклассовая система классификации. В многоклассовом классификаторе. Такие методы обнаружения аномалий учат классификатор отличать каждый нормальный класс от теста классов. Если ни один из классов не классифицирует данный экземпляр данных как нормальный, то это считается аномалией. Любой экземпляр, не удовлетворяющий критериям одного классификатора класса, считается аномалией. Один класс SVM, одноклассовое ядро ​​Дискриминанты Фишера являются примерами классификаторов одного класса.

  1. Системы на основе нейронных сетей -
    Нейронные сети могут использоваться как для решения задач одного класса, так и для решения задач нескольких классов. Репликаторные нейронные сети можно использовать в задаче обнаружения аномалий одного класса. В этой сети прямой связи данные сжимаются в скрытых слоях. Ошибка реконструкции для тестового экземпляра может быть непосредственно использована в качестве оценки аномалии.
  2. Системы на основе байсовской сети.
    Совокупность апостериорных вероятностей каждого атрибута для каждого тестового экземпляра может использоваться для присвоения меток в байсовской классификации.
  3. Системы на основе опорных векторов.
    Методы обучения одного класса используют SVM для обнаружения аномалий. Ядро RBF можно использовать для сложных регионов.
  4. Системы, основанные на правилах -
    Системы основанные на правилах используются в задачах обнаружения аномалий одного или нескольких классов. Любой тестовый экземпляр, не удовлетворяющий правилу, рассматривается как аномалия. Оценка аномалии может быть рассчитана на основе того, насколько близка тестовая выборка к ближайшему классу.
    Эти методы классификации могут использовать многоклассовые классификаторы и, следовательно, могут предоставить больше информации об аномалии. Фаза тестирования этих систем выполняется быстрее, чем методы кластеризации. Однако методы классификации для многоклассового классификатора требуют точных меток для каждого класса в обучающих данных. Эти системы лучше предсказывают метки, чем оценку аномалий.

Методы кластеризации-
Методы кластеризации предполагают, что экземпляры аномалий сильно отделены от экземпляров обычных данных. Евклидово расстояние или мера сходства между каждым атрибутом является хорошей мерой для определения кластера. Методы кластеризации используют расстояние между k-ми ближайшими соседями или относительную плотность каждого кластера для расчета показателя аномалии. Другой способ найти счет — количество ближайших соседей, находящихся в гиперсфере радиусом r. Значение r вычисляется с использованием таких методов, как метод локтя.
Методы ближайшего соседа по своей природе неконтролируемы. Следовательно, им не нужны размеченные данные для обучения. Технику можно обновить или изменить, чтобы она подходила для различных типов данных. Однако эти методы обычно требуют значительных вычислительных ресурсов.