Безопасность и надежность федеративного обучения от Yingfei Fan и Yin Zhang

Если вы используете телефон Google Pixel или часы Apple, вы, вероятно, пользуетесь новейшей технологией федеративного обучения!

Федеративное обучение позволяет мобильным телефонам или другим устройствам совместно изучать общую модель прогнозирования, сохраняя при этом все обучающие данные на устройстве, отделяя возможность машинного обучения от необходимости хранить данные в облаке.

Это работает следующим образом: ваше устройство загружает текущую модель, улучшает ее, изучая данные на вашем телефоне, а затем суммирует изменения в виде небольшого целенаправленного обновления.

Только это обновление модели отправляется в облако с использованием зашифрованной связи, где оно немедленно усредняется с другими пользовательскими обновлениями для улучшения общей модели. Все данные о тренировках остаются на вашем устройстве, а в облаке не хранятся отдельные обновления.

Однако в настоящее время существуют две основные проблемы, связанные с безопасностью федеративного обучения.

Две проблемы:

Федеративное обучение особенно подвержено непреднамеренным сбоям со стороны ненадежных клиентов, находящихся вне контроля поставщика услуг.
Системы федеративного обучения уязвимы для атак со стороны вредоносных клиентов.

Прежде чем мы перейдем к этим двум проблемам, давайте пройдемся по истории современных методов федеративного обучения с теоретической точки зрения!

Первоначальный дизайн системы Gboard использует локальные данные на устройствах Android + инфраструктуру Tensorflow, работающую на облачной архитектуре. Из-за ограничений пропускной способности и задержки был введен алгоритм федеративного усреднения. Он может обучать глубокие сети, используя в 10–100 раз меньше связи по сравнению с наивной федеративной версией SGD. Чтобы гарантировать его безопасность, в отрасли чаще используется модифицированная версия алгоритма усреднения — Протокол безопасного агрегирования. Он расшифровывает среднее обновление, если в нем участвовали 100 или 1000 пользователей. В этом случае никакое отдельное обновление телефона не может быть проверено до усреднения. Безусловно, метод cсжатого обновления имеет решающее значение в процессе обучения. Случайное вращение и квантование — два популярных способа снизить затраты на передачу данных.

В этой потрясающей 121-страничной статье Достижения и открытые проблемы в федеративном обучении мы хотим сосредоточить наш блог на разделе 5 — Защита от атак и сбоев. Как мы упоминали выше, существует два типа сбоев: 1) Злонамеренные сбои: явные атаки, нацеленные на конвейеры обучения и развертывания. 2) Не злонамеренные сбои: шумные учебные метки, ненадежные клиенты, ненадежная связь.

Злонамеренные сбои

В этом разделе блога мы рассмотрим две последние статьи о состязательных атаках на производительность модели. Документ 1 представляет атакующую технику, а второй развивает механизм защиты.

Документ 1: Атака хвостов: да, вы действительно можете взломать федеративное обучение (arix.org, июль 2020 г.)

Во-первых, что такое бэкдор-атаки?

Цель бэкдора — исказить глобальную модель FL, превратив ее в целенаправленное неверное предсказание для конкретной подзадачи, например, заставив классификатор изображений ошибочно классифицировать зеленые автомобили как лягушек.

Вклад этой статьи:

Теоретически установить, что если модель уязвима для враждебных примеров, то бэкдор-атаки неизбежны (обнаружение бэкдоров в модели NP-сложно).
Изобретите новое семейство бэкдор-атак: краевые бэкдоры (живут на хвосте входного распределения)
Их можно вставлять в ряд задач машинного обучения (например, классификацию изображений, распознавание текста, предсказание текста, анализ настроений).
Надежные механизмы защиты, основанные на дифференцированной конфиденциальности, отсечении норм и надежных агрегаторах, таких как Krum и Multi-Krum.

Другими словами, набор примеров p-граничного случая с небольшим значением p можно рассматривать как набор помеченных примеров, в которых входные признаки выбираются из тяжелых хвостов распределения признаков. Обратите внимание, что у нас нет никаких условий на метки, т.е. можно рассматривать произвольные метки, где y_i — целевая метка, выбранная злоумышленником, и в общем случае может не быть истинной меткой.

Как создать набор примеров p-крайнего случая: некоторая смесь между D (доброкачественные образцы) и D_edge (крайние образцы).

Накормите DNN доброкачественными образцами
Соберите выходные векторы предпоследнего слоя
Сопоставьте смешанную модель Гаусса с количеством кластеров = количеству классов =›, у нас есть генеративная модель, с помощью которой злоумышленник может измерить плотность вероятности любой заданной выборки и отфильтровать ее, если это необходимо.

Результаты экспериментов с самыми современными (SOTA) средствами защиты FL — как пограничными атаками черного ящика, так и PGD:

Документ 2: FLGUARD: Безопасное и частное федеративное обучение (axiv.org, январь 2021 г.)

Существующие проблемы существующих средств защиты:

Никакая защита не может защитить процесс FL от атак с несколькими бэкдорами.

Некоторые подробности о причине возникновения вышеуказанной проблемы:

Существующие средства защиты от бэкдор-атак основаны на двух основных идеях:

Кластеризация моделей для выявления потенциально отравленных обновлений моделей
Дифференциальные методы, основанные на конфиденциальности, такие как отсечение весов моделей и добавление шума.

Некоторые наблюдения, основанные на этом:

Существующие средства защиты на основе кластеризации стремятся разделить клиентов на n = 2 кластера: безопасные и вредоносные. При одновременном внедрении m ≥ n бэкдоров такая защита не обнаружит все атаки.(слишком много атак)
Злоумышленник может обойти любой подход к кластеризации, гарантируя, что расстояние между обновлениями зараженной модели W’ и безопасными моделями W остается меньше, чем различительная способность ε используемого подхода к кластеризации. (модели атак слишком близки к безопасным)
Если примененная граница отсечения α слишком высока, злоумышленник может усилить свою модель W', увеличив свои веса до границы отсечения, тем самым максимизировав влияние на агрегированную глобальную модель (граница отсечения α не может быть слишком высокой)
Если применяемая граница отсечения α слишком мала, большая доля весов обновлений доброкачественной модели W также будет подвергаться отсечению, что приведет к ухудшению точности результирующей агрегированной глобальной модели на безвредных данных. (граница отсечения α не может быть слишком низкой)

Поэтому (1) разработка нового подхода к кластеризации, способного одновременно обрабатывать несколько лазеек, (2) оптимизированный выбор параметров для отсечения и зашумления и (3) способ объединения этих подходов для достижения эффективной защиты.

В документе утверждается, что FLGUARD может полностью удалить лазейки с незначительным влиянием на точность.

Динамическая кластеризация:

Вычисление попарных косинусных расстояний, измеряющих угловые разности между всеми обновлениями модели
Не подвержен атакам, которые масштабируют обновления, чтобы усилить их влияние
Применение алгоритма кластеризации HDBSCAN
Группирует модели в зависимости от их плотности и динамически определяет необходимое количество кластеров.

Устранение отравления:

Нормы L2 уменьшаются после каждой итерации обучения => используется адаптивное отсечение и зашумление

Результаты эксперимента показывают не слишком плохую производительность.

Наблюдение и понимание — состязательные атаки на производительность модели

Атаки и защита всегда остаются открытыми вопросами
Реальность — это компромисс между точностью и надежностью

Сомнения в возможности справедливых и надежных прогнозов с помощью систем FL в их нынешнем виде. Нам нужно переосмыслить, как гарантировать надежные и достоверные прогнозы при наличии крайних сбоев.

Не злонамеренные сбои

Помимо враждебных атак на производительность модели, в оставшейся части статьи будет обсуждаться еще один аспект, упомянутый ранее, который также влияет на надежность FL — незлонамеренные сбои.

Хотя незлонамеренные сбои, как правило, менее опасны, чем злонамеренные атаки, они потенциально более распространены, здесь мы обсудим два из трех приведенных ниже режимов сбоя и их решения. Включая сбои конвейера данных, зашумленные обновления моделей и сбои клиентских отчетов.

Обновления зашумленной модели (влияние зашумленных данных)

-› Решение: Надежная конструкция в режиме ожидания/наихудшего случая

Во-первых, в федеративном обучении, даже если данные на клиенте не являются преднамеренно вредоносными, они могут иметь зашумленные функции или зашумленные метки. Мы воспроизводим идею из статьи 2020 года под названием Надежное федеративное обучение с шумной коммуникацией, написанной Fan et al. здесь, в котором рассматриваются проблемы с зашумленными данными в процессе обучения.

Рассмотрим беспроводную связь, шум будет внесен в набор данных, связь в федеративном обучении - это обновление локальной модели и трансляция глобальной модели. Следовательно, шум будет влиять на полученную модель. Добиться идеального захвата локальных моделей при беспроводной связи нецелесообразно из-за шума, который может серьезно повлиять на FL.

В этих условиях в документе предлагается надежная конструкция FL, чтобы противостоять шуму от беспроводной связи и уменьшать влияние шумовых данных. Его основные достижения: Надежная конструкция в рамках модели, основанной на ожиданиях, и модели для наихудшего случая; кроме того, он также включает анализ сходимости для предлагаемого проекта. Первая модель основана на статистических свойствах неопределенности шума, а вторая представляет наборы фиксированных неопределенностей шума.

Базовый дизайн двух моделей рассматривал распределенную систему обучения, состоящую из одного центрального сервера и N граничных узлов, как показано на рисунке 1. Общий процесс обучения с глобальной моделью w обучается совместно граничными узлами. Каждый узел собирает часть помеченных обучающих наборов данных D1, D2, . . . , DN / Цель обучения состоит в том, чтобы минимизировать глобальную функцию потерь F(w) в соответствии с распределенным обучением, т.е.

Перейдем к некоторым техническим деталям предлагаемых решений: учитывая шум как в процессе агрегации, так и в процессе вещания, они сформулировали проблему с эффективным шумом как параллельную задачу оптимизации в рамках двух моделей. Шум агрегации и широковещательный шум можно смоделировать как стохастический и детерминированный. Надежная модель, основанная на ожиданиях, относится к стохастическому свойству шума, как показано на рисунке 2.

Соответствующая задача оптимизации в рамках модели, основанной на ожиданиях, была решена с помощью алгоритма SAM, который может преобразовывать влияние шума как регуляризатора в функцию потерь в процессе обучения. А для модели наихудшего случая в процессе обучения используется алгоритм SCA на основе выборки для аппроксимации целевой функции обучения для каждого узла. С помощью итерации между условным градиентным спуском и этапом агрегации можно получить оптимальную глобальную модель (w).

Что касается экспериментальных результатов, как показано на рисунке 3, оба метода проектирования улучшили точность и потери по сравнению с базовым уровнем. Таким образом, используя предложенное решение, мы можем повысить устойчивость FL при зашумленной связи.

Сбои конвейера данных

-› Решение: генеративные модели

Чтобы решить проблемы сбоя конвейера данных, мы представляем эту статью 2020 года под названием Генеративные модели для эффективного машинного обучения на частных децентрализованных наборах данных, написанную Шоном Огенштейном и соавт. Эта работа мотивирована тем фактом, что, хотя конвейеры данных в федеративном обучении существуют только внутри каждого клиента, существует множество потенциальных проблем, с которыми может столкнуться FL. Необработанные данные остаются распределенными по парку устройств, в то время как координирующий сервер координирует обучение общей глобальной модели. Ограничения данных, такие как проблемы предварительной обработки на уровне функций, значительно усложняют обнаружение. Наша цель — повысить надежность федеративного обучения с непроверяемыми данными.

Несколько основных вкладов в статью включают:

Введены новые дифференциально частные федеративные генеративные модели, которые синтезируют примеры, представляющие частные данные;
Преодолеть ограничение рабочих процессов моделиста ML, которые основаны на проверке данных, поэтому исключаются, когда прямая проверка невозможна.
Демонстрация того, как сохраняющие конфиденциальность федеративные генеративные модели могут быть обучены до достаточно высокой точности, чтобы обнаруживать введенные ошибки данных, соответствующие тем, которые встречаются в реальных сценариях, с использованием RNN для текста и GAN для изображений (это требует новой адаптации генеративно-состязательных сетей (GAN) к федеративным настройкам с гарантиями DP на уровне пользователя.)

Еще немного о технических деталях решения: предлагаемый метод объединяет три технологии: генеративные модели, федеративное обучение (FL) и дифференциальную конфиденциальность (DP). Глубокие генеративные модели могут синтезировать новые примеры, FL может обучать и оценивать распределенные данные, а FL и DP обеспечивают защиту конфиденциальности пользователей.

В качестве примера возьмем GAN. Алгоритм 1 («DP-FedAvg-GAN») описывает, как обучать GAN в условиях FL и DP. Обновление дискриминатора очень похоже на обновление в стандартном DP-FedAvg, а затем каждый раунд завершается обновлением генератора на сервере. Дискриминатор явно обучается под DP. Общий алгоритм заключается в обучении генеративных моделей с использованием федеративных методов с дифференциальной конфиденциальностью, а затем их использовании для синтеза новых выборок данных, которые можно использовать для отладки базовых конвейеров данных.

И экспериментальные результаты показывают, что это решение является устойчивым к этому не злонамеренному сбою, и некоторые ключевые моменты, о которых следует помнить, заключаются в том, что для того, чтобы сделать федеративные генеративные модели полезными и широко применимыми, они обычно требуют минимальной настройки.

Эксперимент был проведен с использованием обучающей среды GAN и ее адаптации к FL и DP. Результат эксперимента показывает, как можно использовать вспомогательные GAN, объединенные с DP, для определения характера ошибки в предварительной обработке изображений на устройстве.

Это решение полезно при сбое конвейера данных за счет отладки данных во время предварительной обработки. Один ключевой момент, о котором следует помнить, заключается в том, что для того, чтобы федеративные генеративные модели были полезными и широко применимыми, они обычно требуют минимальной настройки.

Ошибки сообщения клиента

-> Решение: выберите больше устройств

Мы включаем третий тип не злонамеренных сбоев — сообщения о сбоях клиента и кратко обсуждаем его решения здесь. Такого рода сбои существуют из-за системных факторов в федеративном обучении. В FL каждый раунд обучения состоит из широковещательной передачи модели клиентам, локальных расчетов клиентов и отчетов клиентов об ошибках, которые произошли на этих этапах. Эти сбои обычно возникают при федеративном обучении между устройствами, для которого клиентские устройства, как правило, являются пограничными устройствами с ограниченной вычислительной мощностью. Одним из простых решений этой проблемы может быть выбор большего количества устройств, чем требуется, в каждом раунде. Это помогает гарантировать, что неисправные устройства окажут минимальное влияние на общую конвергенцию.

Наблюдения и выводы

Выделите некоторые наблюдения и выводы относительно неумышленного сбоя:

Во-первых, как и в случае со враждебными атаками, системные факторы и ограничения данных также усугубляют незлонамеренные сбои.
Любая федеративная система обучения по-прежнему должна проверять необработанные данные или предварительно обработанные в обучающие данные, даже если конвейеры данных в FL существуют только внутри каждого клиента; В то время как ошибки конвейера данных часто можно обнаружить с помощью стандартных инструментов анализа данных в настройках центра обработки данных, ограничения данных в федеративном обучении значительно усложняют обнаружение.
Даже если данные на клиенте не являются преднамеренно вредоносными, они могут иметь не вредоносные проблемы, такие как зашумленные функции.

Заключительные слова

Из-за распределенного характера, архитектурного дизайна и ограничений данных федеративного обучения системы могут быть уязвимы для различных видов сбоев. Эти сбои включают непреднамеренные сбои, такие как ошибки в конвейерах предварительной обработки, зашумленные метки обучения, ненадежные клиенты, а также явные атаки, нацеленные на конвейеры обучения и развертывания. Основная идея здесь состоит в том, чтобы найти безопасные и надежные новые методы для решения вышеуказанных проблем. Помимо механизма, представленного выше, существуют и другие потенциальные подходы, позволяющие сделать федеративное обучение более надежным. Например, снижение стоимости восходящей связи является еще одним аспектом для достижения эффективного федеративного обучения. В целом, мы должны продолжать поиск возможности создания более безопасной и надежной системы.

Спасибо за чтение!