Научиться любить черный ящик

Серия «Демистификация науки о данных для специалистов по безопасности»

Это первая статья из серии, предназначенной в качестве учебника для специалистов по безопасности по машинному обучению и соответствующим подходам к науке о данных и искусственному интеллекту, используемым в кибербезопасности.

Он будет охватывать множество различных тем, в том числе:

  • Распространенные мифы и заблуждения об ML и AI в кибербезопасности.
  • Как контролируемое машинное обучение используется в кибербезопасности.
  • Роль обучения без учителя в кибербезопасности.
  • Как работает обучение с подкреплением и как оно особенно полезно для автоматизации реагирования на инциденты.
  • Почему глубокое обучение не всегда лучший подход к обнаружению угроз.
  • Как можно комбинировать разные подходы к машинному обучению, чтобы нивелировать их недостатки и решать сложные и трудоемкие задачи.

В этой статье, первой в серии, мы развеем распространенные заблуждения об искусственном интеллекте и машинном обучении, распространенные в сообществе кибербезопасности.

Фото geralt на Pixabay

Демистификация науки о данных для специалистов по безопасности, часть 1. Развенчание некоторых распространенных мифов об искусственном интеллекте в кибербезопасности.

Наука о данных — одна из самых горячих тем в области безопасности сегодня. Он также является одним из самых неправильно понятых.

Наука о данных — это общий термин, используемый для описания различных техник и методов, которые можно использовать для лучшего понимания данных путем изучения их свойств, анализа с использованием статистических методов или объединения их с другими наборами данных для обнаружения скрытых связей. Наука о данных безопасности включает в себя использование методов из статистики, машинного обучения и других областей для анализа данных безопасности и количественной оценки киберрисков и уязвимостей, обнаружения киберугроз и атак, а также автоматизации задач и процессов операций по обеспечению безопасности.

В последние годы индустрия безопасности страдает от преувеличенной шумихи и раздутых заявлений об ИИ, и это вызывает у многих специалистов по безопасности скептицизм и пресыщенность. ИИ продавали как панацею от всех бед, обещая решить все проблемы, начиная с нехватки навыков и полностью автоматизируя потребность в команде безопасности за счет автономных операций, заканчивая невозможным обнаружением «неизвестных неизвестных» и даже защитой от несуществующего враждебного машинного обучения. Как говорится, в Powerpoint написано больше ИИ, чем в C, Python или R.

Однако специалисты по безопасности не должны обманывать себя и полагать, что наука о данных — это просто причуда или мода. Реальность такова, что машинное обучение и ИИ никуда не денутся. Несмотря на гиперболический и чрезмерный маркетинг, существует множество успешных и весьма впечатляющих реальных приложений, а наука о данных стала повсеместной, если не всегда очевидной. Это связано с тем, что, хотя некоторые оппортунистические стороны злоупотребляют этой концепцией, чтобы продукты казались более передовыми, большая часть отрасли незаметно изучает, применяет и внедряет ML и AI. Существует фундаментальная разница между компанией, претендующей на звание компании, занимающейся ИИ, и компаниями, которые используют машинное обучение как один из многих подходов к решению конкретных проблем кибербезопасности. И даже если вы не используете машинное обучение напрямую, оно, вероятно, будет работать где-то в бэкэнде или в жизненном цикле разработки. Поэтому, прежде чем мы углубимся в эту тему, давайте развеем некоторые распространенные мифы и неправильные представления об машинном обучении и искусственном интеллекте.

Развенчание распространенных мифов о машинном обучении и искусственном интеллекте

Обсуждая ИИ в этой серии статей, мы будем часто использовать термин ИИ для описания различных подходов к науке о данных, основанных на моделях обучения и алгоритмах обучения. Конечно, в первую очередь мы имеем в виду машинное обучение, будь то контролируемое или неконтролируемое обучение, обучение с подкреплением или глубокое обучение.

Дискуссия о том, является ли термин ИИ неправильным или неверным, или что ИИ на самом деле просто ОД, если честно, на данный момент спорна, и если вы все еще спорите об этом на данном этапе, вы просто не знаете, когда сдаться. . Особенно для непрофессионала ML — это ИИ. Возражение против того, что по сути является свершившимся фактом на данном этапе, не добавляет никакой ценности, и это не тот холм, на котором вы должны умереть.

Миф №1 ИИ — это черный ящик

То, что ИИ — это черный ящик, а это означает, что невозможно определить, почему алгоритм машинного обучения решил, что он сделал, является распространенным заблуждением. Частично это связано с тем, что есть некоторые подходы, например, глубокое обучение, где действительно трудно получить полное представление об их внутренней работе после того, как они прошли обучение. Но это не распространяется на машинное обучение в целом, где обычно можно интерпретировать более простые модели с ограниченным числом параметров, такие как линейная регрессия или деревья решений. Но даже для более сложных подходов, таких как глубокие нейронные сети с тысячами или даже миллионами параметров, которые невозможно полностью понять, даже если можно увидеть их структуру и веса, появляется все больше методов, обеспечивающих объяснимость и достоверность данных. модель.

Но также важно различать объяснимость и интерпретируемость. Применительно к ИИ и машинному обучению «Объяснимые модели ИИ резюмируют причины [...] [своего] поведения […] или дают представление о причинах своих решений», тогда как Интерпретируемый ИИ относится к системам ИИ, которые описывают внутренности системы в понятной для человека форме»*.

Если мы хотим упростить это, объяснимость означает понимание того, ПОЧЕМУ модель пришла к выводу. Интерпретируемость означает возможность определить, КАК, на основе понимания лежащего в основе алгоритма или, например, соответствующих параметров и весов. Хотя не всегда возможно сделать модели интерпретируемыми, объяснимость является предпочтительным методом, позволяющим сделать вывод сложных моделей понятным. Мы можем дать представление о том, почему было принято решение.

Интерпретируемость — крепкий орешек. Даже когда код доступен, некоторые критики утверждают, что трудно понять алгоритмы машинного обучения, просто взглянув на математику. Хотя это может иметь место для неспециалистов, реальность такова, что алгоритмы машинного обучения и искусственного интеллекта понятны. Ученые данных и математики. Ожидание, что мы ограничим технологический прогресс, потому что некоторые люди не понимают лежащую в его основе математику и алгоритмы, вероятно, ошибочно, не говоря уже о маниакальном оптимизме. Это также неискренний аргумент. Люди, в том числе эксперты по безопасности, все время используют вещи, которые они не полностью понимают или не могут реконструировать.

Наконец, присутствует элемент недоверия. Редко можно встретить эксперта по безопасности с математическим или статистическим образованием. Однако недоверие часто основано на недостатке знакомства и понимания.

Эксперты по безопасности будущего обязательно будут иметь прочную основу в области фундаментальной науки о данных, статистики и математики. И даже сегодняшние эксперты по безопасности либо узнают об этом, либо устареют. Все, что для этого требуется, — это открытый ум и готовность культивировать наивный ум, чтобы узнать что-то новое.

Также нельзя сказать, что эта проблема неизвестна специалистам по данным и поставщикам, использующим ИИ в своих продуктах. Объяснимый ИИ — это растущая область исследований и разработок, которая решит проблему черного ящика для многих сложных подходов к машинному обучению.

См., например:

https://insights.sei.cmu.edu/blog/what-is-explainable-ai/

https://cloud.google.com/explainable-ai

https://www.darpa.mil/program/explainable-artificial-intelligence

https://www.frontiersin.org/articles/10.3389/fdata.2021.688969/full

*https://arxiv.org/pdf/1806.00069.pdf

Миф №2 ИИ предназначен только для обнаружения угроз

Когда некоторые специалисты по безопасности слышат об искусственном интеллекте или машинном обучении, кажется, что их мысли необъяснимым образом тянутся к обнаружению угроз. Это несколько понятно. Мы видели статистическое обнаружение аномалий и подходы на основе нейронных сетей или Байеса, применяемые для анализа спама, вредоносных программ и сетевых атак на протяжении многих лет, и существует множество различных решений, использующих ИИ для обнаружения. Но это, возможно, наименее изобретательное приложение для машинного обучения и науки о данных в целом.

Честно говоря, несмотря на большие ожидания и некоторые измеримые успехи, мы все еще находимся на ранних стадиях революции ИИ. Таким образом, решение задачи обнаружения кажется естественным путем. Но точно так же, как в цитате, приписываемой Генри Форду: «Если бы я спросил людей, чего они хотят, они бы ответили, что это более быстрые лошади». автомобиль.

Рекурсивные инновации означают, что, когда множество различных технологических достижений и разработок объединяются, это становится катализатором новых и новаторских идей и решений. Мы только сейчас начинаем видеть, как это происходит, поскольку достижения в масштабируемых и крупномасштабных вычислениях, сборе и обработке данных сближаются с развитием более сложных и изощренных алгоритмов и моделей. Добавьте к этому, что впервые у нас есть молодое, но растущее сообщество практиков ИИ с растущим богатством фактического реального опыта, и мы находимся на пороге трансформации, когда мы переходим от обнаружения угроз к аугментации человека. , совместная работа человека и машины и автономные операции безопасности, среди прочего.

ИИ может использоваться и используется для решения целого ряда различных проблем, не поддающихся обнаружению, и даже для поиска решений проблем, которые было немыслимо решить всего несколько лет назад, от виртуального моделирования целых сетей систем до имитации того, как могут разворачиваться атаки и какое влияние они оказали бы, если бы они это сделали, для сбора информации о реагировании на инциденты в реальном мире и поиска знаний, наблюдая, как люди обучают модели для передачи знаний, а затем могли бы рекомендовать следующие шаги передового опыта младшим аналитикам или даже автоматизировать эти действия в будущем. .

Миф №3 ИИ имеет высокий уровень ложных срабатываний

Это распространенное заблуждение, и, к сожалению, особенно распространенное. Заблуждение основано на нескольких недоразумениях.

Во-первых, методы обнаружения, не основанные на машинном обучении, как-то более точны. На самом деле, большинство обнаружений угроз имеют невероятно высокий уровень ложных срабатываний. В зависимости от исследования цифры могут варьироваться от 20% до 99% (20%, 45%, 92,85%, «99%) и в зависимости от того, что отслеживается, и типа используемой технологии обнаружения. Идея о том, что обнаружения на основе машинного обучения по умолчанию дают больше ложных срабатываний, просто не подтверждается данными. Он также не основан на каком-либо глубоком понимании того, как на самом деле работает обнаружение на техническом уровне.

Выдача ложных срабатываний также часто является приемлемым компромиссом, если в противном случае альтернатива означает невозможность обнаружения определенных индикаторов атаки и поведения вообще. То, что некоторые называют ложными срабатываниями, на самом деле следует считать ложными тревогами. Это связано с необходимостью найти баланс между точностью и отзывом и жесткой реальностью технических ограничений в отношении того, что можно надежно обнаружить. Проще говоря, обнаружение угроз затруднено, особенно при отсутствии статических индикаторов компрометации, таких как IP-адреса, доменные имена или хэши файлов, и тем более, когда злоумышленник целенаправленно уклоняется и скрытен.

Другая причина неправильного представления заключается в том, что даже когда машинное обучение используется для обнаружения, его часто неправильно понимают (или, к сожалению, рекламируют) как замену другим традиционным подходам к обнаружению. ML редко предназначается для замены более традиционного обнаружения на основе IOC. Вместо этого обнаружение на основе ML будет сосредоточено на обнаружении угроз и действий, которые не могут быть обнаружены традиционными подходами. «Известные-неизвестные» в отличие от «известных-известных» или индикаторов действия, т. е. поведения, в отличие от статических и бинарных индикаторов компрометации, таких как хэши заведомо-плохих файлов. Традиционные методологии обнаружения и методы обнаружения на основе машинного обучения дополняют друг друга, и большинство подходов к обнаружению предназначены для обнаружения конкретных типов атак, методов или индикаторов. Ни один из методов обнаружения не является универсальным. Сопоставление обнаружения на основе машинного обучения и традиционного обнаружения на основе их соответствующей доли ложных срабатываний не является сравнением яблок с яблоками. Это ложная дихотомия. Вопрос должен звучать так: «Что может хорошо обнаруживать обнаружение на основе сигнатур, и что могут хорошо обнаруживать различные подходы ML».

Выплескивая ребенка вместе с водой, мы, к сожалению, меньше говорим о том, как эффективные подходы, основанные на машинном обучении, могут на самом деле помочь уменьшить количество ложных срабатываний, например, путем объединения слабых сигналов.

См., например:

Флоренция: оценка модели с использованием слабых сигналов

https://assets.amazon.science/6b/15/74348571430e9dfb66ae6dff5a93/firenze-model-evaluation-using-weak-signals.pdf

Обнаружение цепочки атак

https://www.researchgate.net/publication/282791039_Attack_chain_detection

Оптимизация обнаружения аномалий с использованием больших данных и глубокого обучения для уменьшения ложноположительных результатов.

https://journalofbigdata.springeropen.com/articles/10.1186/s40537-020-00346-1

Заключение

Как и большинство новых технологических тенденций, особенно с такими широкими приложениями и потенциалом, ИИ был переоценен и перепродан. Это заставило некоторых в сообществе кибербезопасности усомниться во всей предпосылке и ошибочно полагать, что ИИ — это просто модное словечко.

На самом деле машинное обучение и другие подходы к искусственному интеллекту и науке о данных являются мощным дополнением к набору инструментов киберзащитника. В то же время искусственный интеллект и машинное обучение не только не подрывают кибербезопасность, но и до сих пор доказали свою эволюцию, а не революцию со многими поставщиками и решениями. применяя их для решения проблем, которые невозможно было бы решить каким-либо другим способом, кроме как с более традиционными технологиями.

В то же время мифы и заблуждения — это не только прерогатива ИИ-луддитов. Среди сторонников ИИ также много недоразумений:

  1. ИИ скоро заменит вашу человеческую команду:ИИ вряд ли заменит вашу человеческую команду по обеспечению безопасности в ближайшее время. Нигде в области ИИ, будь то в области кибербезопасности или где-либо еще, в настоящее время это не так, и для большинства реальных приложений требуется участие человека в цикле или, по крайней мере, в цикле. Вместо этого, по крайней мере, в обозримом будущем, например, в ближайшие 5-10 лет, ИИ и МО будут применяться для решения очень специфических задач, таких как крупномасштабный анализ данных, обнаружение скрытых и уклончивых атак или возможность захвата и сохранять знания от людей и передавать их обратно людям.
  2. ИИ сделает операции по обеспечению безопасности полностью автономными: Полностью автономное реагирование и сдерживание в обозримом будущем будут определяться жесткими правилами и критериями и использоваться только тогда, когда, например, удержание человека «в курсе» противоречит цели. при предотвращении атак на скорости машины, когда человеческая реакция была бы только источником трения. Полностью автономный ИИ также вряд ли возникнет в первую очередь в области кибербезопасности — в кибербезопасности нет таких успешных проектов — и у других отраслей есть гораздо больший стимул и больше денег для его разработки.
  3. Подходы к обнаружению на основе ИИ заменят собой традиционные методы обнаружения: модели машинного обучения отлично справляются с одними проблемами и плохо решают другие. Например, использование обнаружения аномалий, когда простой поиск статических индикаторов компрометации крайне неэффективен и затратен. Точно так же модели не являются универсальными двигателями фон Неймана, а разрабатываются и обучаются для решения конкретных задач. Вместо этого в большинстве решений для обеспечения безопасности используются низкотехнологичные и традиционные подходы к обнаружению наряду с машинным обучением и искусственным интеллектом, чтобы иметь возможность охватывать широкий спектр различных угроз и сценариев атак.

Наконец, фраза «ИИ не работает» является опасным признаком того, что человек, произносящий ее, вероятно, не обладает необходимыми знаниями или опытом для обсуждения этой темы. Какой подход к машинному обучению? Под присмотром или без присмотра? Какой алгоритм или модель? Регресс? Древо решений? Кластеризация? Чтобы решить какую проблему?

Наука о данных — это широкая область со множеством поддоменов и специализаций. Его нельзя обобщать.

Истина, как всегда, вероятно, будет находиться где-то посередине этих крайностей. Большинство заблуждений и недоразумений возникает из-за невежества. Что требуется, так это обучение различным подходам ИИ и МО, тому, на что они реально способны, и каковы ограничения.

На этой ноте я надеюсь, что вам понравилась эта первая статья, и вы присоединитесь ко мне в следующей, где мы обсудим, что такое контролируемое машинное обучение (SL) и как оно используется в кибербезопасности.