Защитные механизмы кибербезопасности, построенные на контролируемых алгоритмах машинного обучения, в значительной степени полагаются на старые исторические журналы недавних кибератак для обучения и настройки моделей обнаружения. Точность и актуальность такого набора исторических данных об атаках способствует эффективному обнаружению вредоносных программ или распознаванию доменов C&C (управления и контроля), что позволяет избежать ложноположительных предупреждений в системах SIEM и SOAR.

Однако, в отличие от других инженерных областей, таких идеальных наборов данных в Cyber ​​Security довольно мало. Таким образом, обнаружение киберугроз всегда было сложной задачей, поскольку участники угроз постоянно развиваются, что делает внедрение эффективной контролируемой и усиленной структуры машинного обучения гигантской задачей. Чтобы устранить этот пробел (отсутствие набора данных на этапе обучения/проверки), исследователи безопасности могут использовать неконтролируемые алгоритмы кластеризации (такие как K-Means, DBSCAN, X-Means, Agglomerative и т. д.) для классификации или выявления аномалий в наборы данных.

В этой работе мы использовали набор инструментов машинного обучения Splunk для сортировки аномальных шаблонов трафика для обнаружения утечки данных по альтернативным протоколам (объяснено в MITRE ATT&CK T1048). Мы изучили и использовали журналы DNS-трафика, загруженные в Splunk из нескольких источников данных (DNS-серверы, брандмауэры, WAF, L7 NetFlows и Splunk STREAM Capture). Splunk’s Machine Learning Toolkit — это классическая платформа для обработки данных, основанная на проекте SciKit Learn, которую можно использовать для обнаружения необычных/подозрительных паттернов в нашей сети.

MITRE ATT&CK T1048, в частности, разрабатывает субъектов угроз, когда клиентский компьютер отправляет значительно больше данных, чем получает от альтернативного протокола, такого как служба доменных имен DNS. Команды SOC часто не отслеживают и не уделяют много внимания DNS, поскольку он широко используется в качестве инструмента перевода доменных имен и не предназначен для передачи данных. Принимая во внимание, что DNS-запросы также могут передавать данные между двумя подключенными системами. К сожалению, это делает DNS привлекательным вектором для кибератак, которые могут тайно передавать команды и эксфильтровать данные через туннелирование DNS.

Мы оценили несколько алгоритмов, предоставляемых Splunk ML Toolkit (K-Means, BIRCH, DBSCAN), и нашли K-Means лучшим вариантом из-за его производительности и устойчивости к огромным наборам данных. Наш SPL-запрос, который объясняет нашу аналитику, приведен ниже:

Для обнаружения DNS-туннелирования в режиме реального времени в нашем приложении Splunk EUNOMATIX MLDETECT был реализован компонент, в котором отправляемые байты анализируются в режиме реального времени с использованием неконтролируемого алгоритма машинного обучения, который обнаруживает и точно определяет IP-адреса клиентов с аномальным потоком трафика. Для получения более подробной информации и функциональных возможностей нашей системы обнаружения на основе машинного обучения, пожалуйста, свяжитесь с EUNOMATIX, [email protected].

Ссылки

  1. https://attack.mitre.org/techniques/T1048/
  2. https://www.gartner.com/en/information-technology/glossary/security-orchestration-automation-response-soar
  3. https://scikit-learn.org/stable/modules/clustering.html