1. Дистилляция знаний для объединения глобальных и интерпретируемых моделей классификации маммограмм на основе прототипов (arXiv)

Автор:Чонг Ван, Юаньхун Чен, Ююань Лю, Ю Тянь, Фэнбэй Лю, Дэвис Дж. Маккарти, Майкл Эллиотт, Хелен Фрейзер. , Густаво Карнейро

Аннотация. Современные классификаторы маммографии с глубоким обучением (SOTA), обученные на изображениях со слабой маркировкой, часто полагаются на глобальные модели, которые дают прогнозы с ограниченной интерпретируемостью, что является основным препятствием для их использования. успешное внедрение в клиническую практику. С другой стороны, модели на основе прототипов улучшают интерпретируемость, связывая прогнозы с прототипами обучающих изображений, но они менее точны, чем глобальные модели, и их прототипы, как правило, имеют малое разнообразие. Мы решаем эти две проблемы с помощью предложения BRAIxProtoPNet++, которое добавляет интерпретируемость глобальной модели, объединяя ее с моделью на основе прототипа. BRAIxProtoPNet++ извлекает знания из глобальной модели при обучении модели на основе прототипа с целью повышения точности классификации ансамбля. Более того, мы предлагаем подход к увеличению разнообразия прототипов, гарантируя, что все прототипы связаны с разными тренировочными изображениями. Эксперименты со слабо размеченными частными и общедоступными наборами данных показывают, что BRAIxProtoPNet++ имеет более высокую точность классификации, чем глобальные модели SOTA и модели на основе прототипов. Используя локализацию поражения для оценки интерпретируемости модели, мы показываем, что BRAIxProtoPNet++ более эффективен, чем другие модели на основе прототипов и постфактум объяснения глобальных моделей. Наконец, мы показываем, что разнообразие прототипов, изученных BRAIxProtoPNet++, превосходит подходы, основанные на прототипах SOTA.

2. Переосмысление аугментации данных в дистилляции знаний для обнаружения объектов (arXiv)

Автор: Цзявэй Лян, Сыюань Лян, Айшань Лю, Мингли Чжу, Данни Юань, Чэнье Сюй, Сяочунь Цао

Аннотация:Дистилляция знаний (KD) показала свою эффективность для обнаружения объектов, когда она обучает компактный детектор объектов под наблюдением как знаний ИИ (детектор учителя), так и знаний человека (человек-эксперт). Тем не менее, существующие исследования рассматривают знания ИИ и человеческие знания последовательно и используют единую стратегию увеличения данных во время обучения, что может привести к предвзятому изучению многомасштабных объектов и недостаточному обучению для детектора учителя, вызывая неудовлетворительную производительность дистилляции. Чтобы решить эти проблемы, мы предлагаем увеличение данных для конкретного образца и увеличение враждебных функций. Во-первых, чтобы смягчить влияние многомасштабных объектов, мы предлагаем адаптивное дополнение данных на основе наших наблюдений с точки зрения Фурье. Во-вторых, мы предлагаем метод расширения функций, основанный на состязательных примерах, для лучшей имитации знаний ИИ, чтобы компенсировать недостаточную добычу информации детектором учителей. Кроме того, предлагаемый нами метод унифицирован и легко распространяется на другие методы КД. Обширные эксперименты демонстрируют эффективность нашей структуры и улучшают производительность современных методов в одноступенчатых и двухступенчатых детекторах, обеспечивая прирост не более 0,5 мАч.

3. Послойное обучение представлению Брегмана с приложениями к дистилляции знаний (arXiv)

Автор: Эхсан Амид, Рохан Анил, Кристофер Фифти, Манфред К. Вармут

Аннотация: в этой работе мы предлагаем новый подход к многоуровневому обучению представлений обученной нейронной сети. В частности, мы формируем дивергенцию Брегмана на основе передаточной функции слоя и строим расширение исходной формулировки PCA Брегмана путем включения среднего вектора и нормализации основных направлений относительно геометрии локальной выпуклой функции вокруг среднего. Это обобщение позволяет экспортировать изученное представление в виде фиксированного слоя с нелинейностью. В качестве приложения к дистилляции знаний мы рассматриваем задачу обучения для студенческой сети как прогнозирование коэффициентов сжатия представлений учителя, которые передаются в качестве входных данных для импортированного слоя. Наши эмпирические данные показывают, что наш подход значительно более эффективен для передачи информации между сетями, чем типичное обучение учитель-ученик с использованием представлений предпоследнего слоя учителя и программных меток.