Организация ограбления данных с помощью машинного обучения

Искусственный интеллект (ИИ), машинное обучение и наука о данных — основные модные словечки, популярность которых в последнее время резко возросла. Компании и правительства все чаще используют свои приложения, чтобы узнавать больше о своих целях, то есть о людях. Скандал с данными Facebook и Кембриджа, всплывший в 2018 году, привел к серьезным разговорам о том, как данные в основном стали товаром. Если бы массы наблюдали внимательно, это выявило бы, как они были социально спроектированы, чтобы выдать свою информацию.

Социальная инженерия в сочетании с ИИ может использоваться для управления смертельными атаками на машины, которые могут заставить их предоставить любую информацию, которую они хранят. Комбинация работает хорошо, потому что это не строго «техническая» атака. Это включает в себя использование человеческой психики и использование этой извлеченной информации с помощью правильной технологии для запуска атак. Чтобы еще больше объяснить это, подумайте об этом с точки зрения чрезвычайно популярной серии фильмов об ограблениях под названием «11 друзей Оушена». В фильме команда собирает как можно больше информации о своих целях и использует нужных людей (ресурсы), чтобы украсть предмет, который они намеревались.

Итак, что такое машинное обучение?

«Составление строгого набора инструкций для решения проблемы VS Попытка воспитать ребенка, который захочет делать то, что вы от него хотите, — и они будут подрывать ваши намерения при каждой возможности, пытаясь сократить все, чтобы найти простейшая сквозная линия”

Ретт Гринхаген

Вопреки распространенному мнению, машинное обучение (МО) на самом деле является подмножеством ИИ. Цель машинного обучения — предсказать результат определенного набора данных. Таким образом, если кто-то вводит набор данных в алгоритм ML, его можно использовать для прогнозирования потенциальных значений результатов, связанных с этим набором данных. Применение ML выходит за рамки обнаружения мошенничества, оценки бизнес-процессов и фильтрации спама. Перечисленные здесь приложения можно применять только после того, как вокруг них будет построена модель машинного обучения. Эти модели после обучения изучают новые данные, относящиеся к их приложению, и требуют определенного уровня доверия со стороны разработчика. Цитата, упомянутая выше, уместна в этом отношении, потому что такие методы, как отладка ML, помогают однажды понять, как это на самом деле работает. Это дает ощущение безопасности людям, работающим с ним, что еще больше помогает им понять его.

Машинное обучение как услуга

Основываясь на идее алгоритма машинного обучения, машинное обучение вызвало новый интерес со стороны бизнеса. Стремясь решить проблемы, предприятия увидели возможность извлечь выгоду из услуг машинного обучения, чтобы предсказывать результаты своих решений. Это еще больше возродило интерес ведущих «собак», таких как Microsoft, Amazon, к созданию собственных сервисов машинного обучения. Ведущими поставщиками услуг машинного обучения являются: -

1. Amazon AWS (веб-сервисы Amazon)

2. Microsoft Azure

3. IBM Watson

4. Механизм облачного машинного обучения Google

Здесь возникает вопрос: как это работает? Не будучи слишком техническим, модель ML обучается/разрабатывается с использованием алгоритма. Этот алгоритм содержит входные данные, которые составляют основу модели ML. Входные данные должны содержать ожидаемый результат (цель), и после развертывания модели модель моделирует шаблоны, которые в конечном итоге обеспечивают целевой результат. Машинное обучение как услуга использует API прогнозирования качества и вместе с набором данных работает в конфигурации стиля «черный ящик», которая продолжает взаимодействовать с API.

Атаки кражи модели

Хотя эти модели могут показаться сложными, они также подвержены атакам. Полностью разработанные модели машинного обучения можно эксплуатировать и использовать для выявления фактов, которые даже их владельцы не могли понять. Модель машинного обучения, также называемая ее создателями черным ящиком, может быть скомпрометирована методами, известными как запросы черного ящика. Основные применения этой атаки относятся к краже моделей прогнозирования фондового рынка и к разработке модели фильтрации спама (модели для фильтрации писем, которые классифицируются как спам).
Согласно Ретту Гринхагену, существуют модели, которые можно использовать для кражи Модели прогнозирования фондового рынка. Их можно использовать для влияния на цены на фондовом рынке и извлечения миллионов долларов из компаний, разработавших эти модели. Гринхаген упомянул об одержимости инвесторов влиять на цены на фондовом рынке и представил детали модели, построенной для этого.

Необработанные данные в руках компетентного знатока машинного обучения могут нанести больше вреда, чем в руках обычного биржевого трейдера. Его можно использовать для извлечения паттернов, и он показывает, насколько эти модели беззащитны перед внешним поведением.

Как это делается?

Чтобы понять, как все это работает, необходимо хорошо разбираться в концепции компьютеров и сетей и их взаимодействии. После этого вернитесь к модели воровства на фондовом рынке. Чтобы выполнить модель, атаки реконструкции можно администрировать, исследуя общедоступные/частные API для имитации режима прогнозирования фондового рынка. Взяв данные фондового рынка, скажем, за последние 15 лет, можно получить представление о закономерностях, связанных с ним. Модель ML позволяет создавать собственные правила.

Это имеет большое значение для предупреждения вас всякий раз, когда на фондовом рынке происходит движение. Таким образом, если стоимость акции изменится на заданный процент, модель предупредит своего создателя. Создатель может дополнительно установить действие, которое будет выполняться после изменения запаса на этот конкретный процент. Действия в этом контексте относятся к покупке и продаже акций. Таким образом, любой, кто использует эту модель прогнозирования фондового рынка, может инвестировать относительно меньшую сумму и выйти с потенциально утроенной суммой за считанные минуты. Модель ML, используемая торговыми домами, в основном скомпрометирована и «украдена», без их ведома. Эта модель также играет на психологии тех, кто принимает решение о покупке и продаже из-за ограниченных окон, предоставленных им во время торговли. Подводя итог с технической точки зрения, вы начинаете со сбора ваших переменных (зависимых и независимых переменных). После этого вы переходите к обучению модели ML на основе доступных данных. Как только это будет сделано, модель ML может быть либо опубликована, либо использована в соответствии с удобством разработчика.

Другое применение этого возможно в отношении Google Translate. Понимая прогностический характер Google Translate, можно использовать модель кражи машинного обучения для получения информации из этих сервисов для разработки другого сервиса аналогичного характера. Tesla также является ярким примером этого, учитывая его сильную зависимость от ИИ.

Итак, что вы можете узнать из этого примера?

Данные податливы. Им можно манипулировать, и это стирает грань между тем, следует ли строго верить представленным им данным. Но в торговой среде нельзя быть таким осторожным. SEC, то есть Комиссия по ценным бумагам и биржам, имеет меры безопасности именно для этой цели, что позволяет надежно верить этим данным.

Но подумайте о последствиях этой атаки для экономики. Это негативно влияет на экономику, пока эти модели остаются незамеченными. Если бы это стало тенденцией, это отняло бы у экономики и инвесторов миллионы долларов. Мало того, это также удар по интеллектуальной собственности, что эти торговые дома/компании потратили огромное количество ресурсов на разработку. Когда кто-то вмешивается в эти модели, также становится трудно доказать эти атаки в суде, что мгновенно уничтожает сделанные инвестиции.

Как вы защищаете себя?

Прочитав это, у вас может возникнуть соблазн построить свою собственную модель. Но есть большая вероятность, что это обернется для вас неприятными последствиями. Сложность моделей ML может привести к тому, что модель ML будет содержать сомнительные данные, а это означает, что для работы с моделями ML требуется много навыков. Хотя это может не затронуть большинство людей, его угроза по-прежнему нависает над ними, особенно с ростом потоковых сервисов. Потоковые сервисы используют модели машинного обучения и учитывая одержимость людей Netflix и другими потоковыми сервисами; это делает их уязвимыми для атак.

Компании также обратили на это внимание и вложили огромные средства в разработку компетентных систем. Это заметно по дополнительным уровням безопасности, регулярному пентестированию их сервисов и побуждению пользователей следовать передовым методам обеспечения безопасности. Правильные вопросы о технологиях помогут избежать опасности.

Принятие алгоритма обнаружения аномалий

Принятие алгоритма обнаружения аномалий является идеальной первой линией защиты. Как следует из названия, он обнаруживает аномалии в модели машинного обучения, поскольку новые атаки подразумевают, что в жизненном цикле модели будут созданы новые аномалии. Его справедливость в дальнейшем была доказана в индустрии азартных игр.

Разработайте процесс реагирования на инциденты

Как только вы обнаружите аномалию в алгоритме машинного обучения, первое, что подскажет вам, как реагировать, — это процесс реагирования на инциденты. Вы должны иметь это на месте для вашей собственной безопасности. Это подскажет вам, как реагировать, когда происходит внезапная атака. Это лучшая стратегия для минимизации потерь.

Регулярно оценивайте модели безопасности

Возвращаясь к примеру с фондовым рынком, это непростая в управлении атака. Это требует больших усилий и навыков и часто осуществляется корпорациями. У этих групп есть мотивация и капитал, чтобы это произошло. По сути, это форма инсайдерской торговли. Эти группы получают огромную прибыль от одной акции, и, имея в своих руках все модели фондового рынка, они могут нанести ущерб экономике и инвесторам.

Поскольку эти модели также могут использоваться для кражи традиционных моделей, разработанных компаниями, компании теряют контроль над своей интеллектуальной собственностью. По сути, они потеряли право собственности на свою модель, свои продукты и услуги. Поэтому этим компаниям необходимо регулярно оценивать свои модели, чтобы избежать потерь такого масштаба. Нестандартной идеей в этом отношении может быть работа с кем-то, кто организовал такие атаки. Это даст им представление о тенденциях этих атак и поможет им быть готовыми к худшему. Это соответствует тому, что Ретт Гринхаген заявил в своем программном выступлении, поскольку он рассказал, что работал с АНБ и ЦРУ.

Последние мысли

Насколько нам известно, злоумышленники в реальном мире в настоящее время не проводят атаки такого типа, — говорит Аниш Атали, исследователь из Массачусетского технологического института. Но, учитывая все исследования в этой области, кажется, что многие системы машинного обучения очень хрупкие, и я не удивлюсь, если реальные системы уязвимы для такого рода атак. Мир ИИ сложен. Хотя у него есть много приложений, которые можно использовать на благо общества, у него есть и темная сторона. Хотя обычному пользователю может быть неинтересно понимать, как на самом деле работает ИИ, ему должно быть интересно. Технологии развиваются каждый день, и данные генерируются каждую секунду. Заявление о праве собственности на данные дает таким фирмам, как Facebook, власть, поскольку они получают доход, продавая данные рекламодателям. Эти рекламодатели могут делать что угодно с данными пользователя, и это сама по себе страшная мысль.

Здесь также стоит отметить, что область ИИ также развивается, что делает ее обоюдоострым мечом. С одной стороны, ИИ потенциально может стать катализатором, помогающим предотвратить злонамеренную деятельность. Обратная сторона этого заключается в том, что это может привести к большему количеству кибератак. Соедините это с атакой, такой как социальная инженерия, DDoS-атака, и это достаточная причина для осторожности. ИИ точно не исчезнет. Его преимущества намного перевешивают капитал, необходимый для работы с ним. Нужно просто быть в курсе того, что происходит в этой области, независимо от того, следует ли кто-то технологиям или нет.

Ресурсы:

https://www.usenix.org/sites/default/files/conference/protected-files/security16_slides_tramer.pdf

https://elie.net/blog/ai/attacks-against-machine-learning-an-overview/