Сфера машинного обучения постоянно развивается, иногда медленно, а в других случаях мы переживаем технический эквивалент Кембрийского взрыва с быстрым прогрессом, из-за чего многие специалисты по обработке данных сталкиваются с серьезным случаем синдрома самозванца. Возьмем, к примеру, новую итерацию машинного обучения под названием федеративное обучение, которая была впервые представлена ​​Google AI в 2017 году в сообщении блога Федеративное обучение: совместное машинное обучение без централизованных данных обучения », а также в уже ставшей основополагающей исследовательской статье, подготовили почву для федеративного обучения, подробно обсудив новый подход под названием федеративная оптимизация Федеративная оптимизация: распределенное машинное обучение для анализа на устройстве (октябрь 2016 г.). Всего за несколько лет эта новая методология значительно продвинулась вперед.

В этой статье мы рассмотрим федеративное обучение с точки зрения его начала, преимуществ, проблем, а также некоторых недавних достижений.

Краткое описание федеративного обучения

Традиционное машинное обучение включает в себя конвейер данных, который использует центральный сервер (локальный или облачный), на котором размещается обученная модель, чтобы делать прогнозы. Обратной стороной этой архитектуры является то, что все данные, собранные локальными устройствами и датчиками, отправляются обратно на центральный сервер для обработки, а затем возвращаются обратно на устройства. Этот круговой обход ограничивает способность модели учиться в режиме реального времени.

Напротив, федеративное обучение (FL) - это подход, который загружает текущую модель и вычисляет обновленную модель на самом устройстве (ala edge computing) с использованием локальных данных. Эти локально обученные модели затем отправляются с устройств обратно на центральный сервер, где они агрегируются, то есть усредняют веса, а затем единая консолидированная и улучшенная глобальная модель отправляется обратно на устройства.

Ваш телефон настраивает модель локально в зависимости от вашего использования (A). Обновления многих пользователей объединяются (B), чтобы сформировать консенсусное изменение © к общей модели, после чего процедура повторяется.
Источник: https://ai.googleblog.com/2017/04/federated- Learning-Collaborative.html

В более общем смысле FL позволяет алгоритмам машинного обучения получать опыт из широкого диапазона наборов данных, расположенных в разных местах. Такой подход позволяет нескольким организациям сотрудничать при разработке моделей, но без необходимости напрямую обмениваться безопасными данными друг с другом. В ходе нескольких итераций обучения общие модели получают доступ к значительно более широкому диапазону данных, чем тот, который есть у любой отдельной организации. Другими словами, FL децентрализует машинное обучение, устраняя необходимость объединения данных в одном месте. Вместо этого модель обучается в несколько итераций в разных местах.

Google описывает, как FL работает таким образом в отношении мобильных телефонов:

Это работает следующим образом: ваше устройство загружает текущую модель, улучшает ее, изучая данные на вашем телефоне, а затем суммирует изменения в виде небольшого целевого обновления. Только это обновление модели отправляется в облако с использованием зашифрованного обмена данными, где оно немедленно усредняется с обновлениями других пользователей для улучшения общей модели. Все данные о тренировках остаются на вашем устройстве, и никакие отдельные обновления не хранятся в облаке.

Преимущества

Вот некоторые основные преимущества федеративного машинного обучения:

  • FL позволяет таким устройствам, как мобильные телефоны, совместно изучать общую модель прогнозирования, сохраняя при этом обучающие данные на устройстве, вместо того, чтобы требовать, чтобы данные были выгружены и сохранены на центральном сервере.
  • Перемещает обучение моделей на периферию, а именно на такие устройства, как смартфоны, планшеты, Интернет вещей, или даже «организации», такие как больницы, которые должны работать в условиях строгих ограничений конфиденциальности. Сохранение личных данных на месте - серьезное преимущество в плане безопасности.
  • Делает возможным прогнозирование в реальном времени, поскольку прогнозирование происходит на самом устройстве. FL сокращает временную задержку, которая возникает из-за передачи необработанных данных обратно на центральный сервер, а затем отправки результатов обратно на устройство.
  • Поскольку модели находятся на устройстве, процесс прогнозирования работает даже при отсутствии подключения к Интернету.
  • FL сокращает объем необходимой аппаратной инфраструктуры. FL использует минимальное оборудование, и того, что доступно в мобильных устройствах, более чем достаточно для работы моделей FL.

Проблемы

Есть ряд основных проблем, связанных с FL. Во-первых, связь является критическим узким местом в сетях FL, где данные, генерируемые на каждом устройстве, остаются локальными. Чтобы обучить модель с использованием данных, генерируемых устройствами в сети, необходимо разработать эффективные методы связи, которые сокращают общее количество циклов связи, а также итеративно отправлять небольшие обновления модели как часть процесса обучения, а не для отправки всего набора данных.

Кроме того, методы FL должны: прогнозировать низкий уровень участия устройств, т.е. только небольшую часть устройств, которые будут активны одновременно; допускать вариативность оборудования, которая влияет на возможности хранения, вычислений и связи каждого устройства в объединенной сети; и иметь возможность обрабатывать потерянные устройства в сети.

Наконец, FL помогает защитить данные, созданные на устройстве, путем обмена обновлениями модели, такими как данные градиента, вместо необработанных данных. Но передача обновлений модели на протяжении всего процесса обучения может раскрыть конфиденциальную информацию либо третьей стороне, либо центральному серверу.

Последние достижения в федеративном обучении

Из-за важности того, что FL предлагает для машинного обучения в гиперсвязном мире, эта технология стала плодотворной областью исследований. Например, упрощенная реализация инфраструктуры FL требует, чтобы каждое устройство отправляло полную модель (или полное обновление модели) обратно на центральный сервер для каждого раунда. Для более крупных моделей этот шаг может создать узкое место из-за таких факторов, как асимметричная скорость подключения к Интернету (например, более низкая скорость загрузки по сравнению с загрузкой). Новое исследование, такое как Федеративное обучение: стратегии повышения эффективности коммуникации (октябрь 2017 г.), исследует методы, которые могут снизить затраты на восходящую связь.

Кроме того, ряд групп работают над рассмотрением уникальных характеристик и проблем FL и предоставлением подробного обзора текущих подходов, а также оценкой направлений будущей работы, относящейся к целому ряду областей применения. В недавнем документе Федеративное обучение: проблемы, методы и будущие направления (август 2019 г.) группа исследователей из Университета Карнеги-Меллона установила тот факт, что ФЛ является активной и постоянной областью исследований, и предоставила обширное резюме недавняя работа.

Также имеется документ, в котором описывается масштабируемая производственная система для FL для мобильных устройств На пути к федеративному обучению в масштабе: проектирование системы (март 2019 г.), который включает в себя итоговый проект высокого уровня, обзор новых проблем с решениями, а также некоторые открытые проблемы с будущими направлениями.

Вот несколько новых доступных ресурсов FL:

Заключение

В этой статье мы представили новую настройку для распределенного машинного обучения (задачи оптимизации), которая называется федеративным обучением. Этот параметр мотивирован методологией, при которой пользователи вообще не отправляют данные, которые они генерируют локально, на центральные серверы, а скорее предоставляют часть своих вычислительных мощностей для использования для выполнения локального обучения машинному обучению. Это связано с уникальным набором проблем, однако исследователи FL активно участвуют в продвижении этой новой технологии. Все еще не уверены, что FL многообещающе? Ознакомьтесь с описанием Google Manga, оно может избавить вас от опасностей!