Озера данных безопасности: экспертные системы или машинное обучение?

Итак, теперь, когда мы построили современное Security Data Lake, что вы будете с ним делать?

Обнаружение аномалий

Предположим, вы построили озеро данных безопасности; теперь нужно проанализировать данные на наличие аномалий.

Обнаружение угроз кибербезопасности и инцидентов должно быть быстрым и точным.

Чем больше шагов вам нужно предпринять, прежде чем вы сможете начать анализировать события, тем больше вы будете позади злоумышленника.

Вы можете собрать все необработанные данные в огромной таблице Snowflake, но вы не можете запросить необработанные данные. Необработанные данные находятся, например, в сообщениях PCAP или в формате журнала событий Windows.

Передача всех этих данных вашим поставщикам систем безопасности SIEM влечет за собой дополнительные расходы и замедляет вашу работу.

Модель подключенного приложения

Связанное приложение — это модель развертывания, при которой вы подключаетесь к данным вашего клиента непосредственно на платформе данных клиента. Поставщики не извлекают данные от клиента в свои собственные системы SaaS, поддерживающие рабочую нагрузку приложений данных, а скорее подключают свои приложения к платформе данных клиента. Клиент всегда владеет данными и всегда может делиться или анализировать все данные в любое время. Модель подключенного приложения обещает устранить разрозненность данных у клиентов: принесите свою собственную снежинку.

Специально для фрагментированного пространства кибербезопасности эта модель позволяет конечным пользователям предоставлять целостный обзор всех данных, связанных с безопасностью, в одном месте.

Схема при чтении против схемы при записи

Схема при чтении означает, что мы применяем схему при поиске данных. Нас, например, интересует конкретный шаблон имени файла или код состояния, и мы пытаемся извлечь правильные данные из текста, например, с помощью регулярного выражения.

Схема при записи означает, что мы преобразуем данные в схему. Преобразованные данные оптимизированы для наших вариантов использования. Поиск намного быстрее и эффективнее.

Schema-on-Read лучше всего подходит для специальных поисковых исследований, но является сложным и медленным. Он не подходит для повторяющихся запросов, типичного шаблона использования информационных панелей.

Сбор данных часто не в текстовой форме. Сетевые пакеты передаются в двоичном виде. Чтобы сделать данные доступными для анализа, применяется определенный уровень преобразования, например, в формате PCAP.

Это указывает на то, что обсуждение того, когда применять схему и преобразовывать данные, относится к варианту использования.

Экспертные системы

Экспертные системы фиксируют знания экспертов предметной области в машиночитаемом формате. Знания фиксируются в логических правилах и применяются к телу данных. Типичная экспертная система включает базу знаний, механизм вывода и пользовательский интерфейс.

Запись человеческих знаний в виде машиночитаемых данных и правил — долгий и сложный процесс.

Преимущество в том, что любой эксперт, умеющий читать правила и факты, может проверить их правильность.

База знаний должна содержать данные в определенном формате. Это процедура Schema-on-Write. Новые факты должны быть преобразованы в разборчивый формат.

Машинное обучение

Машинное обучение состоит из алгоритмов и математических формул для получения свойств из данных. Типичным примером является маркировка неструктурированных данных, например, для распознавания рукописного текста или человеческих лиц на фотографиях.

Конвейер машинного обучения состоит из нескольких шагов. Во-первых, модель необходимо обучить на реальных данных. Во-вторых, часть реальных данных используется для проверки. В-третьих, обученная модель развертывается и выполняется с новыми данными из операции. В-четвертых, модель предоставляет результат, например прогноз или метку.

Трудность здесь заключается в получении достоверных реальных данных. Особенно в области кибербезопасности получение реальных данных о нарушениях безопасности очень сложно или невозможно, и этот подход страдает от проблемы холодного запуска.

Проверка модели также проблематична. Как узнать, точно ли модель находит бреши в системе безопасности применительно к новым данным? Вам придется развернуть и изучить модель в действии, но кто захочет запускать непроверенную модель? Модели машинного обучения обычно рассматриваются как черный ящик, и их нелегко проверить экспертами.

Машинное обучение требует необработанных данных и, таким образом, больше подходит для подхода Schema-on-Read.

Реальные подходы

Сфера безопасности переполнена инструментами, технологиями, платформами и многим другим. Security Data Lake пытается объединить их, предлагая единую платформу для всех случаев. SDL сам по себе является подходом к разработке данных. Наука о данных должна работать поверх SDL. Общие подходы на рынке вписываются в две ранее упомянутые категории: экспертные системы и машинное обучение. Давайте посмотрим на некоторые из них.

MITRE ATT&CK и репозиторий кибераналитики

Репозиторий MITRE ATT&CK — яркий пример экспертной системы. Это

глобально доступная база знаний о тактике и методах противника, основанная на реальных наблюдениях.

База знаний состоит из правил, таких как «Использование общедоступного приложения», с более подробным описанием возможных атак.

На основе этих правил можно разработать конкретный набор правил. Правила должны оперировать фактами, т. е. данными и моделью данных, которая также представлена в Кибераналитическом репозитории.

Чтобы иметь возможность использовать экспертные знания MITRE, захваченные данные необходимо преобразовать таким образом, чтобы события можно было запрашивать. Правила записываются на языке высокого уровня для предметной области, а затем переводятся на язык запросов для данной системы и модели данных.

Правила транслируются в запросы для конкретной базы данных и модели данных, например, в Snowflake SQL, и возвращают результаты пользователю в пользовательском интерфейсе. Новые данные поступают из наблюдаемой системы. Этот процесс должен работать непрерывно.

Штаб-квартира Сигмы

Sigma — это общий формат с открытым исходным кодом для описания событий и правил журнала в соответствии с базой знаний ATT&CK. Sigma предоставляет DSL высокого уровня для кодирования правил и связывает их с фактическим правилом MITRE ATT&CK, предоставляя идентификатор.

Это позволяет аналитику писать конкретные правила для набора данных без какого-либо языка или реализации, специфичных для поставщика. Правила могут быть переведены на любой язык или технологию конкретного поставщика и, таким образом, подходят для подходов Security Data Lake и модели подключенных приложений.

Данные должны быть структурированы для запросов, поэтому необходимо использовать подход Schema-on-Write. Данные должны храниться как минимум в полуструктурированном формате, таком как JSON, для удобства запросов.

Подходы к машинному обучению

Обзор литературы по подходам к машинному обучению показывает большой объем подходов и моделей машинного обучения для обнаружения всевозможных угроз. Для каждой угрозы нужна своя модель!

Это ставит интересный вопрос: возможен ли общий ИИ, который понимает все возможные угрозы кибербезопасности сейчас и в будущем? Системе необходимо будет понимать, что такое «нормальное» поведение на каждом клиентском объекте, и обнаруживать аномалии в этом поведении.

Подходы ML, кажется, охватывают глубину обнаружения аномалий кибербезопасности, но не широту.

ML требует необработанных данных для работы, и их много.

Объединение машинного обучения и экспертных систем

Комбинированный подход дает наилучшее покрытие.

Экспертную систему можно развернуть для просмотра собранных данных и выявления угроз кибербезопасности. Данные необходимо собрать и преобразовать, прежде чем можно будет применить правила. Правила выполняются через равные промежутки времени, а не непрерывно.

Вы смотрите в прошлое, а не в настоящее.

Система машинного обучения может непрерывно работать с необработанными данными перед приемом. Модель машинного обучения можно применять для обнаружения критических событий, когда они происходят, а затем помечать их для более глубокого анализа.

Обучите машинное обучение с помощью экспертной системы

Модель ML может учиться у экспертной системы. Если результаты экспертной системы сохраняются, то модель машинного обучения можно обучить на результатах и улучшить.

Это решит проблему холодного запуска и переместит обнаружение угроз на передний план системы, тем самым сократив среднее время обнаружения.

Заворачивать

В этой статье мы рассмотрели:

Озера данных безопасности
Подключенная модель приложения
Схема при чтении против схемы при записи
Экспертные системы
Машинное обучение
Комбинированные подходы и обучение у экспертных систем

Озеро данных безопасности — это решение для обработки данных в хранилищах данных в аналитике кибербезопасности. Наука о данных — это следующий шаг в эволюции озер безопасности данных и подключенных приложений.

Теперь, когда у вас есть все данные, вы знаете, что с ними делать!