ЧАСТЬ: 1. ВВЕДЕНИЕ В ОБЩЕСТВЕННОМ ОБЪЯСНЕНИИ
ПОНЯТИЯ, ВКЛЮЧЕННЫЕ В ЭТУ СТАТЬЮ:
- О постановке задачи
- Почему проблема важна?
- Практические варианты использования
- Различные концепции, задействованные в следующих статьях этой серии
Начнем с истории:
- Предположим, что есть компания с названием Splash, и вы недавно присоединились к инженеру по машинному обучению в компании, занимающей 30 LPA CTC. Итак, нижеследующая вещь описывает компанию и поставленную задачу.
- В настоящее время мы в Splash помогаем ритейлерам с бизнес-аналитикой.
- Одна из наших основных задач заключается в мониторинге и анализе бизнес-показателей нашего клиента в режиме реального времени для мгновенного обнаружения инцидентов, которые могут повлиять на их доход.
- Одной из частей этой задачи является обнаружение аномалий, которое генерирует оповещения о бизнес-показателях нашего клиента.
- Постановка проблемы, представленная ниже, подчеркивает проблему, которую компания решает в настоящее время.
1. О постановке задачи:
- Поскольку компания в основном помогает ритейлерам с бизнес-аналитикой, компания в основном сосредоточена на просмотре данных клиента, а затем на том, есть ли аномалия в данный период, и попытке количественно оценить меру с помощью оценки аномалии.
Итак, теперь мы должны сформулировать вопрос так: предсказать аномалию (в данный момент времени, если она присутствует), а затем попытаться дать ее количественную оценку.
- Поясню слово «количественно», оно означает, по сравнению со всеми предыдущими аномалиями, насколько вы уверены (по шкале от 0 до 100), что данное значение является аномалией.
НАБОР ДАННЫХ:
Вам будет предоставлен файл с разделителями-запятыми (CSV), который будет содержать следующие столбцы:
- временная метка (Тип данных: строка, вы знаете значение, это означает, что в определенный период времени)
- значение (Тип данных: целое число, количество, которое должно быть нашим входом, чтобы предсказать, является ли это аномалией или нет)
- is_anomaly (тип данных: логический, True или False)
- прогнозируемый (Тип данных: целое число, это выходные данные модели черного ящика, которая была разработана для прогнозирования значения на основе прошлых значений)
ИТАК, ПОСТАНОВКА ЗАДАЧИ И НАБОР ДАННЫХ ЯСНЫ? Я НАДЕЮСЬ……
2. Почему постановка проблемы важна?
Прежде всего, подумайте об этом со своей точки зрения, тогда мы увидим это с точки зрения мира, может быть, что-то новое появится, не так ли?
НАША ПЕРСПЕКТИВА:
- Если мы оба занимаемся бизнесом, какое нам дело до аномалии? Может быть, если я занимаюсь продажами, какое значение имеет аномалия? Так как…..
- Потому что это помогло бы мне увидеть, где я ошибаюсь, пытаясь оправдать то, что пошло не так, и определить шаги, чтобы принять меры предосторожности, чтобы избежать / извлечь выгоду из таких вещей?
МИРОВАЯ ПЕРСПЕКТИВА:
- Эрик Огрен, старший аналитик по безопасности в 451 Research, описывает обнаружение аномалий как «аналитику безопасности».
Снова цитируя Огрена: «Через два года аналитика будет определять стратегии безопасности большинства организаций, поскольку операционные группы используют информацию, полученную из аналитики, для применения превентивных мер.
- Сначала это будет аналитика, а затем более точечные, разрозненные подходы, основанные на том, что говорят вам аналитики».
3. ПРАКТИЧЕСКИЕ ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ:
Возникает вопрос, зачем получать информацию об аномалии, каково ее значение в реальной жизни, как корпоративный мир относится к аномалии?
- МЕДИЦИНСКАЯ ОБЛАСТЬ:Аномалия в медицинской области??? Да, в медицине он используется для обнаружения некоторых аномальных по своей природе клеток (это может быть обнаружение опухоли в клетках головного мозга).
- ТОРГОВЛЯ АКЦИЯМИ:Поскольку мы все больше и больше узнаем об акциях, это может помочь нам в определении аномалий в данный период. Примером может служить следующая картинка.
ЕСТЬ МНОГО ДРУГИХ СЛУЧАЕВ ИСПОЛЬЗОВАНИЯ, ОДНАКО НАМ НУЖНО ПРОСТО ПРОЙДИТЬ ЭТО И НАУЧИТЬСЯ СОЗДАТЬ ПРОГРАММУ ОБНАРУЖЕНИЯ АНОМАЛИЙ.
4. РАЗЛИЧНЫЕ КОНЦЕПЦИИ, ИСПОЛЬЗУЕМЫЕ В ПРЕДСТОЯЩИХ СТАТЬЯХ СЕРИИ
Итак, в следующих статьях мы будем использовать различные алгоритмы для классификации и использовать некоторые статистические методы, чтобы узнать оценку аномалии для данной аномалии.