Есть ли способ обнаружить аномальные данные в машине до того, как это сократит время ее простоя? Профессионалы обрабатывающей промышленности уже давно борются с плохими стратегиями технического обслуживания. В результате снижается производительность машин. В то же время незапланированные простои из-за частых ремонтных работ могут привести к финансовым потерям. Так или иначе, у нас есть устройство, которое может оповестить нас о возможном выходе из строя деталей машины. Передовые новые системы обнаружения аномалий начинают тестироваться и внедряться операторами-производителями, находящимися в авангарде инноваций. Но как работают эти системы?

Вы также можете прочитать Утройте свои результаты с профилактическим обслуживанием

В статистике и интеллектуальном анализе данных аномалии — это точки данных, события или наблюдения, которые не соответствуют ожидаемому шаблону данного набора данных. Аномалии проникают в наборы данных из-за неисправных систем, собирающих данные, или из-за событий, которые вряд ли произойдут в обычный день. Например, неисправность машины будет отправлять аномальные данные в систему через ее датчик, и своевременное их обнаружение может помочь нам сократить время простоя машины и потери в производительности.

Прежде чем мы углубимся в понимание методов машинного обучения для фильтрации аномальных точек данных, будет полезно, если мы рассмотрим широкую классификацию методов машинного обучения. Мы можем разделить эти методы разведки на две большие категории:

  1. Обучение с учителем. Обучение с учителем используется, когда у нас есть исторические наборы данных, вручную и методично помеченные для классификации наблюдений на нормальные события и аномальные события (1 и 0).
  2. Обучение без учителя. Обучение без учителя применяется, когда мы не знаем, что ищем в данных.

Обнаружение неконтролируемых аномалий

Недостаток размеченных данных возникает, когда производственная единица еще недостаточно хорошо зарекомендовала себя или начинает работу с нуля. Когда это происходит, деревья решений и логистическая регрессия являются неудачными методами машинного обучения. Специалисты по данным должны разрабатывать модели, которые могут функционировать без наблюдения со стороны человека, выявлять аномальные наблюдения и выдавать предупреждения, когда такое происходит.

K-ближайшие соседи (K-NN)

K-NN — это метод машинного обучения с учителем, который использует неконтролируемый метод для выявления аномалий. Неконтролируемый метод — это метод, который полностью зависит от пороговых значений и не включает в себя какое-либо фактическое «обучение» процесса или заранее определенную классификацию набора данных как «выбросы» или «не выбросы». Предположим, у нас есть распределение данных, показанное на изображении. Точка p1, очевидно, является выбросом.

Мы интуитивно видели, что ближайший сосед находится очень далеко от точки p1 (локальная плотность была низкой), что делает его аномалией. Эта же интуиция питает этот алгоритм. Мы вычисляем среднее расстояние (локальную плотность) каждой точки с ее ближайшими соседями «k». Точка будет выбросом, если это среднее расстояние значительно выше, чем средние расстояния ее ближайших соседей «K».

Несмотря на чрезвычайно простую логику алгоритма, он работает более надежно и точно в обнаружении аномальных данных по сравнению со сложными алгоритмами. Поскольку модель чрезмерно упрощена, она не может хорошо обрабатывать категориальные переменные, поскольку становится невероятно сложно вычислить расстояния для категориальной переменной.

Тематическое исследование

Компания недавно улучшила свое оборудование путем регистрации и ищет причины продолжающихся отказов оборудования. Неконтролируемое обучение можно использовать, потому что не хватает качественных наборов данных с метками. Поскольку набор данных включает только непрерывные числовые переменные, которые были зафиксированы датчиком (как видно на рисунке выше), K-NN можно использовать для извлечения аномальных явлений.

Дальнейшая проверка инженерами может сузить поиск основной причины.

Обнаружение аномалий с помощью изолированного леса

«Выращивайте деревья решений, когда ничего не работает». было кредо, за которое цеплялись специалисты по данным. Несмотря на то, что K-ближайшие соседи в основе своей довольно просты, они страдают от ряда проблем, включая обработку категориальных переменных, проблемы с производительностью и ограничения пространства. В результате K-NN практически бесполезен для реальных бизнес-приложений.

Для каждого из факторов необходимо было вырастить простые деревья решений. Обнаружение аномалий упрощается, когда каждая точка данных проходит через дерево решений и занимает свой собственный узел. В терминальном узле точки, очень близкие к корню, являются аномальными, потому что требуется меньше суждений, чтобы отделить их от других точек. Чтобы повысить надежность и эффективность модели, специалисты по данным создают несколько деревьев решений (Изолированный лес).

Преимущество этого метода подобно дереву решений: изолирующий лес является непараметрическим и не делает никаких предположений о данных и, следовательно, может обнаруживать выбросы из сочетания категориальных и числовых переменных. Еще одним преимуществом является время выполнения алгоритма. Он экспоненциально быстрее, чем итеративный алгоритм K-NN, и, следовательно, обрабатывает большие наборы данных. В результате этот алгоритм мог бы более точно сказать, где и когда произошло аномальное поведение? Где и когда произошла или произойдет аномалия? Когда требуется техническое обслуживание или новое оборудование.

Заключение

В бизнесе практически всегда присутствуют миллионы точек данных и многочисленные факторы категорий. Исследователи создали алгоритм, который может решать эти сложные задачи без присмотра, чтобы решить эту проблему. Создание конвейера, который начнет выявлять аномальные наблюдения и, как следствие, упреждающее техническое обслуживание машин, может сэкономить вашей компании миллионы долларов до того, как произойдет сбой.