Как парные сравнения используются в машинном обучении, часть 2

MOSPC: прогноз MOS на основе парного сравнения (arXiv)

Автор: Ван Кэсинь, Юньлун Чжао, Цяньцянь Донг, Том Ко, Ван Минсюань.

Аннотация: В качестве субъективного показателя качества синтезированной речи средний балл мнения~(MOS) обычно требует, чтобы несколько аннотаторов оценивали одну и ту же речь. Такой подход к аннотациям требует много рабочей силы, а также отнимает много времени. Модель прогнозирования MOS для автоматической оценки может значительно снизить затраты на рабочую силу. В предыдущих работах сложно точно оценить качество речи, когда показатели MOS близки. Однако в практических приложениях более важно правильно оценить качество систем синтеза или предложений, чем просто прогнозировать показатели MOS. Между тем, поскольку каждый аннотатор оценивает несколько аудиозаписей во время аннотирования, оценка, вероятно, представляет собой относительное значение, основанное на первой или нескольких первых оценках речи, выставленных аннотатором. Руководствуясь двумя вышеупомянутыми моментами, мы предлагаем общую основу для прогнозирования MOS на основе парного сравнения (MOSPC) и используем алгоритм C-Mixup для повышения производительности обобщения MOSPC. Эксперименты с BVCC и VCC2018 показывают, что наша структура превосходит базовые показатели по большинству показателей коэффициента корреляции, особенно по метрике KTAU, связанной с ранжированием качества. Наша система также превосходит базовый уровень по точности ранжирования в каждом детальном сегменте. Эти результаты показывают, что наша структура способствует повышению точности ранжирования качества речи.

2. Краудсорсинг субъективных аннотаций с использованием парных сравнений снижает предвзятость и ошибки по сравнению с методом большинства голосов (arXiv).

Автор : Хасти Нариманзаде, Араш Бадие-Модири, Юлия Смирнова, Тед Сюань Юн Чен

Аннотация: Как лучше уменьшить вариативность измерений и систематическую ошибку, вызванную субъективностью при краудсорсинговой маркировке, остается открытым вопросом. Мы представляем теоретическую основу для понимания того, как случайные ошибки и погрешности измерений входят в краудсорсинговые аннотации субъективных конструктов. Затем мы предлагаем конвейер, который сочетает в себе маркировку парных сравнений с оценкой Эло, и демонстрируем, что он превосходит вездесущий метод голосования большинством в снижении обоих типов ошибок измерения. Чтобы оценить эффективность подходов к маркировке, мы построили агентную модель краудсорсинговой маркировки, которая позволяет нам привносить в задачи различные типы субъективности. Мы обнаружили, что в большинстве случаев с субъективным заданием метод сравнения давал более высокие оценки f1. Кроме того, метод сравнения менее подвержен раздуванию предвзятости, к чему обычно приводит голосование большинством. Чтобы облегчить применение, мы показываем с помощью моделирования и реальных данных, что количество необходимых случайных сравнений для одной и той же точности классификации линейно масштабируется O(NlogN) с количеством помеченных элементов. Мы также реализовали систему Elo как пакет Python с открытым исходным кодом.

Как парные сравнения используются в машинном обучении, часть 2

Вопросы по теме