Вертикальное федеративное обучение (VFL) позволяет нескольким сторонам с непересекающимися функциями общего набора данных совместно обучать модель машинного обучения, не делясь своими личными данными. Модели на основе деревьев, такие как случайные леса и деревья с градиентным усилением, популярны в VFL из-за их эффективности и интерпретируемости. Однако существующие методы VFL для древовидных моделей могут привести к утечке частных обучающих меток из пространства экземпляров — набора идентификаторов записей, назначенных каждому узлу.
В этой статье предлагается новая атака на вывод меток под названием ID2Graph, которая позволяет пассивной стороне в VFL точно выводить обучающие метки из открытого пространства экземпляров. Атака преобразует обученную древовидную модель в граф, обнаруживает сообщества в графе с помощью алгоритма Лувена и, наконец, кластеризует локальный набор данных пассивной стороны на основе назначений сообщества.
Чтобы смягчить такие атаки, в документе представлена взаимная информационная защита под названием ID-LMID. Он ограничивает взаимную информацию между метками и пространством экземпляров, чтобы ограничить утечку меток. ID-LMID предотвращает разделение кандидатов и пространств экземпляров, которые превышают порог взаимной информации.
Эксперименты с различными наборами данных показывают, что атака ID2Graph может эффективно красть метки в древовидном VFL. ID-LMID успешно предотвращает атаку, ограничивая взаимную информацию без значительного ущерба полезности. Результаты подчеркивают риски для конфиденциальности, связанные с раскрытием пространства экземпляров в дереве VFL, и эффективность взаимной регуляризации информации в качестве защиты.
раскрытие информации: Автор использует ИИ для создания черновиков резюме.