Список для чтения еженедельной исследовательской работы по машинному обучению

Машинное обучение, Исследования

Список для чтения еженедельной исследовательской работы по машинному обучению - № 5

На этой неделе (31/8 / 2020–6 / 9/2020) ознакомьтесь со следующими 3 исследовательскими работами.

LeSiNN: обнаружение аномалий путем определения наименее похожих ближайших соседей

Авторы: Гуансон Панг, Кай Мин Тинг и Дэвид Альбрехт

Место проведения: Международная конференция IEEE по интеллектуальному анализу данных, 2015 г. (ICDMW)

Бумага: URL

Абстрактный:

Мы вводим концепцию наименее похожих ближайших соседей (LeSiNN) и используем LeSiNN для непосредственного обнаружения аномалий. Хотя существует существующий метод, который является частным случаем LeSiNN, эта статья, насколько нам известно, является первой, в которой четко сформулирована основная концепция. LeSiNN - это первый метод ансамбля, который хорошо работает с моделями, обученными с использованием выборок из одного экземпляра. LeSiNN имеет линейную временную сложность по отношению к размеру данных и количеству измерений, и это один из немногих детекторов аномалий, который может применяться непосредственно как к числовым, так и к категориальным наборам данных. Наша обширная эмпирическая оценка показывает, что LeSiNN либо конкурирует, либо превосходит шесть современных детекторов аномалий с точки зрения точности обнаружения и времени работы.

Объяснение выбросов с помощью разделимости подпространств

Авторы: Барбора Миченкова, Раймонд Т. Нг, Суан-Хонг Данг и Ира Ассент.

Место проведения: 13-я Международная конференция по интеллектуальному анализу данных (ICDM), 2013 г.

Бумага: URL

Абстрактный:

Выбросы - это необычные объекты в сборе данных. В зависимости от домена они могут представлять собой ошибки, мошеннические действия или редкие события, которые вызывают у нас интерес. Существующие подходы сосредоточены на обнаружении выбросов или степени выброса (ранжирования), но не дают возможного объяснения того, как эти объекты отклоняются от остальных данных. Такие объяснения помогут пользователю интерпретировать или подтверждать обнаруженные выбросы. Проблема, рассматриваемая в этой статье, заключается в следующем: учитывая выброс, обнаруженный существующим алгоритмом, мы предлагаем метод, который определяет возможные объяснения этого выброса. Эти объяснения выражаются в виде подпространств, в которых данный выброс показывает отделимость от выбросов. Таким образом, предлагаемый нами метод дополняет существующие алгоритмы обнаружения выбросов, предоставляя дополнительную информацию о выбросах. Наш метод разработан для работы с любым существующим алгоритмом обнаружения выбросов, а также включает эвристику, которая дает существенное ускорение по сравнению с базовой стратегией.

ZERO ++: использование возможностей нулевых явлений для обнаружения аномалий в крупномасштабных наборах данных

Авторы: Гуансон Панг, Кай Мин Тинг, Дэвид Альбрехт и Хуэйдонг Джин

Место проведения: Журнал исследований искусственного интеллекта (JAIR)

Бумага: URL

Абстрактный:

В этой статье представлен новый неконтролируемый детектор аномалий под названием ZERO ++, который использует количество появлений нуля в подпространствах для обнаружения аномалий в категориальных данных. Он уникален тем, что работает в областях подпространств, не занятых данными; тогда как существующие методы работают в регионах, занятых данными. ZERO ++ исследует только небольшое количество низкоразмерных подпространств, чтобы успешно идентифицировать аномалии. В отличие от существующих частотных алгоритмов, ZERO ++ не включает поиск шаблона подпространства. Мы показываем, что ZERO ++ лучше или сопоставим с современными методами обнаружения аномалий по широкому спектру реальных категориальных и числовых наборов данных; и он эффективен с линейной временной сложностью и постоянной пространственной сложностью, что делает его подходящим кандидатом для крупномасштабных наборов данных.

Списки чтения за предыдущие недели:

Еженедельный список чтения №1

Еженедельный список чтения №2

Еженедельный список чтения №3

Еженедельный список чтения №4

Обо мне:

Я Дургеш Самария, 3-й курс доктора философии по машинному обучению. студент FedUni, Австралия. В Интернете я известен как TheMLPhDStudent.

Подпишитесь на мою рассылку, чтобы получать мои еженедельные отрывки.

В интернете:

Подписывайтесь на меня в Instagram, Kaggle, GitHub и Medium.

Спасибо за чтение.

Список для чтения еженедельной исследовательской работы по машинному обучению - № 5

Машинное обучение, Исследования