1. Получение знаний от преподавателей перекрестного обучения для эффективной сегментации органов брюшной полости с полуконтролем при компьютерной томографии(arXiv)

Автор: Чжэ Вон Чой

Аннотация. Для большего клинического применения моделей глубокого обучения для сегментации медицинских изображений необходимо удовлетворить высокие требования к размеченным данным и вычислительным ресурсам. В этом исследовании предлагается структура от грубой до точной с двумя моделями учителя и моделью ученика, которая сочетает в себе дистилляцию знаний и перекрестное обучение, регуляризацию согласованности на основе псевдометок для эффективного полуконтролируемого обучения. Предлагаемый метод продемонстрирован в задаче сегментации нескольких органов брюшной полости на КТ-изображениях в рамках задачи MICCAI FLARE 2022 со средними баллами Dice 0,8429 и 0,8520 в проверочном и тестовом наборах соответственно.

2.Извлечение знаний для федеративного обучения: практическое руководство(arXiv)

Автор:Алессио Мора, Ирэн Тенисон, Паоло Беллависта, Ирина Риш

Выдержка. Федеративное обучение (FL) позволяет обучать модели глубокого обучения без централизованного сбора потенциально конфиденциальных необработанных данных. Это прокладывает путь к более сильным гарантиям конфиденциальности при построении прогностических моделей. Наиболее часто используемые алгоритмы для FL представляют собой схемы, основанные на усреднении параметров (например, Federated Averaging), которые, однако, имеют хорошо известные ограничения: (i) клиенты должны реализовывать одну и ту же архитектуру модели; ii) передача весов моделей и обновлений моделей предполагает высокую стоимость связи, которая увеличивается с увеличением количества параметров модели; (iii) При наличии распределений данных, отличных от IID, схемы агрегирования с усреднением параметров работают плохо из-за дрейфа клиентской модели. Объединенные адаптации обычной дистилляции знаний (KD) могут решить и / или смягчить недостатки алгоритмов FL с усреднением параметров, возможно, вводя другие компромиссы. В этой статье мы предоставляем обзор алгоритмов на основе KD, адаптированных для конкретной проблемы FL.

3.Понимание роли смешения в дистилляции знаний: эмпирическое исследование(arXiv)

Автор: Хонджун Чхве, Ын Сом Чжон, Анкита Шукла, Паван Турага.

Аннотация. Смешивание — это популярный метод увеличения данных, основанный на создании новых выборок путем линейной интерполяции между двумя заданными выборками данных для улучшения обобщения и надежности обученной модели. С другой стороны, дистилляция знаний (KD) широко используется для сжатия моделей и передачи обучения, что включает использование неявных знаний более крупной сети для управления обучением меньшей сети. На первый взгляд эти два метода кажутся очень разными, однако мы обнаружили, что гладкость является связующим звеном между ними, а также важным атрибутом для понимания взаимодействия KD с микшированием. Хотя было предложено множество вариантов смешивания и методов дистилляции, многое еще предстоит понять в отношении роли смешивания в дистилляции знаний. В этой статье мы представляем подробное эмпирическое исследование различных важных аспектов совместимости между смешением и перегонкой знаний. Мы также тщательно изучаем поведение сетей, обученных с помощью микширования, в свете дистилляции знаний посредством обширного анализа, визуализаций и всесторонних экспериментов по классификации изображений. Наконец, основываясь на наших выводах, мы предлагаем улучшенные стратегии, которые помогут студенческой сети повысить ее эффективность. Кроме того, результаты этого исследования дают полезные советы исследователям и практикам, которые обычно используют методы КД. Наш код доступен по адресу https://github.com/hchoi71/MIX-KD.