ЧАСТЬ: 1. ВВЕДЕНИЕ В ОБЩЕСТВЕННОМ ОБЪЯСНЕНИИ

ПОНЯТИЯ, ВКЛЮЧЕННЫЕ В ЭТУ СТАТЬЮ:

  • О постановке задачи
  • Почему проблема важна?
  • Практические варианты использования
  • Различные концепции, задействованные в следующих статьях этой серии

Начнем с истории:

  • Предположим, что есть компания с названием Splash, и вы недавно присоединились к инженеру по машинному обучению в компании, занимающей 30 LPA CTC. Итак, нижеследующая вещь описывает компанию и поставленную задачу.
  • В настоящее время мы в Splash помогаем ритейлерам с бизнес-аналитикой.
  • Одна из наших основных задач заключается в мониторинге и анализе бизнес-показателей нашего клиента в режиме реального времени для мгновенного обнаружения инцидентов, которые могут повлиять на их доход.
  • Одной из частей этой задачи является обнаружение аномалий, которое генерирует оповещения о бизнес-показателях нашего клиента.
  • Постановка проблемы, представленная ниже, подчеркивает проблему, которую компания решает в настоящее время.

1. О постановке задачи:

  • Поскольку компания в основном помогает ритейлерам с бизнес-аналитикой, компания в основном сосредоточена на просмотре данных клиента, а затем на том, есть ли аномалия в данный период, и попытке количественно оценить меру с помощью оценки аномалии.

Итак, теперь мы должны сформулировать вопрос так: предсказать аномалию (в данный момент времени, если она присутствует), а затем попытаться дать ее количественную оценку.

  • Поясню слово «количественно», оно означает, по сравнению со всеми предыдущими аномалиями, насколько вы уверены (по шкале от 0 до 100), что данное значение является аномалией.

НАБОР ДАННЫХ:

Вам будет предоставлен файл с разделителями-запятыми (CSV), который будет содержать следующие столбцы:

  • временная метка (Тип данных: строка, вы знаете значение, это означает, что в определенный период времени)
  • значение (Тип данных: целое число, количество, которое должно быть нашим входом, чтобы предсказать, является ли это аномалией или нет)
  • is_anomaly (тип данных: логический, True или False)
  • прогнозируемый (Тип данных: целое число, это выходные данные модели черного ящика, которая была разработана для прогнозирования значения на основе прошлых значений)

ИТАК, ПОСТАНОВКА ЗАДАЧИ И НАБОР ДАННЫХ ЯСНЫ? Я НАДЕЮСЬ……

2. Почему постановка проблемы важна?

Прежде всего, подумайте об этом со своей точки зрения, тогда мы увидим это с точки зрения мира, может быть, что-то новое появится, не так ли?

НАША ПЕРСПЕКТИВА:

  • Если мы оба занимаемся бизнесом, какое нам дело до аномалии? Может быть, если я занимаюсь продажами, какое значение имеет аномалия? Так как…..
  • Потому что это помогло бы мне увидеть, где я ошибаюсь, пытаясь оправдать то, что пошло не так, и определить шаги, чтобы принять меры предосторожности, чтобы избежать / извлечь выгоду из таких вещей?

МИРОВАЯ ПЕРСПЕКТИВА:

  • Эрик Огрен, старший аналитик по безопасности в 451 Research, описывает обнаружение аномалий как «аналитику безопасности».

Снова цитируя Огрена: «Через два года аналитика будет определять стратегии безопасности большинства организаций, поскольку операционные группы используют информацию, полученную из аналитики, для применения превентивных мер.

  • Сначала это будет аналитика, а затем более точечные, разрозненные подходы, основанные на том, что говорят вам аналитики».

3. ПРАКТИЧЕСКИЕ ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ:

Возникает вопрос, зачем получать информацию об аномалии, каково ее значение в реальной жизни, как корпоративный мир относится к аномалии?

  • МЕДИЦИНСКАЯ ОБЛАСТЬ:Аномалия в медицинской области??? Да, в медицине он используется для обнаружения некоторых аномальных по своей природе клеток (это может быть обнаружение опухоли в клетках головного мозга).
  • ТОРГОВЛЯ АКЦИЯМИ:Поскольку мы все больше и больше узнаем об акциях, это может помочь нам в определении аномалий в данный период. Примером может служить следующая картинка.

ЕСТЬ МНОГО ДРУГИХ СЛУЧАЕВ ИСПОЛЬЗОВАНИЯ, ОДНАКО НАМ НУЖНО ПРОСТО ПРОЙДИТЬ ЭТО И НАУЧИТЬСЯ СОЗДАТЬ ПРОГРАММУ ОБНАРУЖЕНИЯ АНОМАЛИЙ.

4. РАЗЛИЧНЫЕ КОНЦЕПЦИИ, ИСПОЛЬЗУЕМЫЕ В ПРЕДСТОЯЩИХ СТАТЬЯХ СЕРИИ

Итак, в следующих статьях мы будем использовать различные алгоритмы для классификации и использовать некоторые статистические методы, чтобы узнать оценку аномалии для данной аномалии.

Я надеюсь, что эта статья оказалась для вас полезной, если у вас есть какие-либо предложения или критика, они приветствуются.

Спасибо…..