Благодаря федеративному обучению мы можем улучшить производительность модели централизованного машинного обучения альтернативным способом без совместного использования данных пользователей.

Это 21 век, и данные - новое золото. С появлением новых технологий, более высокой вычислительной мощности и, конечно же, огромного объема данных, искусственный интеллект набирает обороты, и ожидается, что глобальный рынок искусственного интеллекта (ИИ) вырастет с 58,3 миллиарда долларов США. в 2021 году до 309,6 млрд долларов США к 2026 году при среднегодовом темпе роста (CAGR) 39,7% в течение прогнозируемого периода по данным MarketsandMarkets.

Хотя искусственный интеллект приносит много комфорта в нашу повседневную жизнь, мы даже не осознаем этого, но есть и некоторые проблемы. И конфиденциальность данных - одна из них. Приложения собирают ваши данные (конечно, не для того, чтобы продавать их сторонним приложениям?), Чтобы дать вам более персонализированные рекомендации и результаты (наряду с рекламой 😐).

ПОЭТОМУ ВОЗНИКАЕТ ВОПРОС, ОСТАВЛЯЮТСЯ ДАННЫЕ В ВАШЕМ ТЕЛЕФОНЕ?

Ответ положительный. Например, когда вы предоставляете доступ к информации о вашем местоположении любому приложению, оно собирает данные о вашем местоположении. Теперь дело за приложением, как они хотят, чтобы их алгоритм искусственного интеллекта использовал его. Есть два варианта:

  1. На сервере. Модель машинного обучения / глубокого обучения развертывается на сервере, где она обучает модель данным, полученным от миллиардов смартфонов.
  2. На устройстве: модель ML / DL развертывается на телефоне, где пользовательские данные используются для обучения и улучшения модели для получения более точных рекомендаций.

У обоих есть свои преимущества и недостатки. Для обучения на сервере требуется огромный объем хранилища для хранения данных и безопасность мирового класса, чтобы защитить их от утечки данных. В то время как обучение на устройстве проводится на ограниченном количестве данных, и производительность модели снижается.

Решение: обучение централизованной модели на децентрализованных данных. Бум !!!!

Хорошо, позволь мне объяснить это.

Для лучшего взаимодействия с пользователем компании потребуется обучение данных с миллиардов смартфонов на централизованной модели, присутствующей на сервере. Но для этого данные должны покинуть смартфоны. Но мы же этого не хотим? Вместо этого, если копия централизованной модели присутствует на всех устройствах, на которых происходит обучение, значит, мы уже решили проблему производительности. Теперь нам нужно каким-то образом объединить все результаты с каждого смартфона в один. Теперь результаты обучения (как мы, инженеры по машинному обучению называем это: веса), очевидно, можно отправить на сервер, где они будут объединены. Теперь веса надежно зашифрованы, а ключ связан с моделью, которая присутствует на устройстве.

Ооооо да !!!

А для дальнейшего повышения конфиденциальности пользователей используется протокол безопасного агрегирования, который позволяет серверу объединять зашифрованные результаты только для расшифровки агрегата путем добавления масок с нулевой суммой. Чтобы узнать больше об этом, пожалуйста, обратитесь к этой статье.

Наконец, агрегированные веса отправляются обратно в модель на устройстве, и теперь у нас есть новое улучшенное обновление модели.

С каждым новым началом возникают новые задачи. И доверьтесь красоте новых вызовов, они здесь, чтобы помочь нам расти.

Итак, давайте обсудим проблемы.

  1. Некоторые данные очень специфичны для конкретного пользователя. А это снизит общую производительность модели. Мы не хотим, чтобы модель запоминала редкие данные от конкретного пользователя.

Решение: а) Разработав механизм для контроля суммы, которую отдельный пользователь может внести в общий результат. б) путем добавления шума к более конкретным данным. Это также называется дифференциальной конфиденциальностью. Я нашел эту статью достаточно интуитивно понятной.

2. Теперь у нас есть наша новая модель, сформированная из агрегированных результатов. Но как мы можем увидеть, как модель работает с новыми данными, перед развертыванием обновления?

Решение: просто! Мы можем применить ту же концепцию разделения проверки поезда, о которой все мы знаем. Вместо этого в качестве эксперимента у нас будут пользователи !!!! Звучит интересно, да? Мы разделим пользователей на обучение и проверку. Из универсального набора пользователей смартфонов у нас есть небольшая часть тех, кто подтвердит результат. А остальные обучат модель. Итак, модель тестируется на данных в реальном времени.

3. Может ли простое агрегирование с усреднением работать для всех алгоритмов? Поясним это на двух примерах:

а) Возьмем Нормальный байес (openCV). На средний вектор и ковариационную матрицу сильно влияет количество выборок для каждого класса. Теперь предположим, что у нас есть два смартфона и проблема двоичной классификации: класс A и класс B.

Пользователь 1:

Пользователь 2:

Где x ki (j) представляет значение i- -го атрибута объекта j- -го образца принадлежащий классу k в обучающей выборке, а последний n -мерный (всего n атрибутов объекта) означает вектор класса k 'μk' оценивается как:

Таким образом, на значения среднего вектора сильно влияет количество выборок в классе. Таким образом, средний вектор мкА (1) пользователя 1 имеет 75% влияние класса A и мкА (2) 25%. Итак, если мы объединим их, взяв среднее значение 1/2 (мкА (1) + мкА (2)), сможем ли мы сохранить информацию, относящуюся к классам?

б) Для таких алгоритмов, как SVM, вес которых представляет собой не что иное, как вспомогательные векторы, зависящие от количества выборок в наборе данных, можем ли мы иметь матрицу весов постоянного размера для всех результатов? Нам нужно разработать алгоритмы агрегирования, специфичные для конкретной задачи машинного обучения.

4. Компромисс между конфиденциальностью и точностью:

Иногда для повышения конфиденциальности данных пользователя добавляется некоторый шум, что приводит к отклонению данных от фактического поведения, что приводит к некоторому снижению точности.

Заключение :

Федеративное обучение может решить множество проблем, связанных с конфиденциальностью пользователей, одновременно улучшая производительность модели для получения более точных рекомендаций. Это довольно новая область, и дополнительные исследования могут решить множество проблем, с которыми сталкивается то, что мы называем совместным обучением.

Использованная литература: