1. CDLT: набор данных с отклонением понятий и длиннохвостым распределением для детальной визуальной категоризации (arXiv)

Автор: Шо Е, Юйфэн Ши, Русинь Ван, Ю Ван, Цзямяо Сюй, Чуаньу Ян, Сингэ Ю

Аннотация: Данные являются основой для развития компьютерного зрения, и создание наборов данных играет важную роль в развитии методов мелкозернистой визуальной категоризации ~ (FGVC). В существующих наборах данных FGVC, используемых в компьютерном зрении, обычно предполагается, что каждый собранный экземпляр имеет фиксированные характеристики, а распределение различных категорий относительно сбалансировано. Напротив, реальный сценарий показывает тот факт, что характеристики экземпляров имеют тенденцию меняться со временем и демонстрируют длиннохвостое распределение. Следовательно, собранные наборы данных могут ввести в заблуждение при оптимизации мелкозернистых классификаторов, что приведет к неудовлетворительной производительности в реальных приложениях. Исходя из реальных условий и для содействия практическому прогрессу в мелкозернистой визуальной категоризации, мы представляем набор данных «Концептуальный дрейф и длиннохвостое распределение». В частности, набор данных собирается путем сбора 11 195 изображений 250 экземпляров разных видов в течение 47 месяцев подряд в их естественном контексте. В процессе сбора участвуют десятки специалистов по фотографированию и эксперты по маркировке. Обширные базовые эксперименты с использованием современных моделей мелкозернистой классификации демонстрируют проблемы дрейфа понятий и длиннохвостого распределения, существующие в наборе данных, которые требуют внимания будущих исследований.

2. Обнаружение отклонения концепции для прогнозирования надежности дефектов программного обеспечения с использованием интерпретации экземпляров (arXiv).

Автор: Зейнаб Чицазян, Саид Седигян Каши, Амин Никанджам.

Аннотация: В контексте своевременного прогнозирования дефектов программного обеспечения (JIT-SDP) дрейф концепции (CD) может произойти из-за изменений в процессе разработки программного обеспечения, сложности программного обеспечения или изменений в поведении пользователей, которые могут повлиять на стабильность модели JIT-SDP во времени. Кроме того, проблема дисбаланса классов в данных JIT-SDP создает потенциальный риск для точности методов обнаружения CD в случае реализации ребалансировки. Насколько нам известно, этот вопрос не изучен. Кроме того, были предложены методы проверки стабильности моделей JIT-SDP с течением времени путем рассмотрения помеченных данных оценки. Однако следует отметить, что будущие метки данных не всегда могут быть доступны оперативно. Мы стремимся разработать надежную модель JIT-SDP, используя непосредственное обнаружение точек CD, выявляя изменения в интерпретации немаркированных упрощенных и повторных данных. Чтобы оценить наш подход, мы сначала получили базовые методы, основанные на мониторинге производительности модели, для определения точек CD на маркированных данных. Затем мы сравнили результаты предложенных методов с базовыми методами, основанными на мониторинге производительности пороговых и независимых от пороговых критериев с использованием известных показателей производительности в методах обнаружения CD, таких как точность, MDR, MTD, MTFA и MTR. Мы также используем статистический тест Фридмана для оценки эффективности нашего подхода. В результате предложенные нами методы демонстрируют более высокую совместимость с базовыми методами, основанными на независимых от пороговых значений критериях, при применении к перебалансированным данным, и с базовыми методами, основанными на пороговых критериях, при применении к простым данным.