1. Передача знаний от ранжирования ответов к генерации ответов(arXiv)

Автор: Маттео Габбуро, Рик Кончел-Кедзиорски, Сиддхант Гарг, Лука Солдайни, Алессандро Москитти

Аннотация . Недавние исследования показывают, что ответ на вопрос (QA), основанный на выборе предложения ответа (AS2), можно улучшить, создав улучшенный ответ из предложений с ответом из k лучших ответов (называемых GenQA). Это позволяет синтезировать информацию от нескольких кандидатов в краткий, естественно звучащий ответ. Однако создание крупномасштабных контролируемых обучающих данных для моделей GenQA является очень сложной задачей. В этой статье мы предлагаем обучить модель GenQA путем передачи знаний из обученной модели AS2, чтобы преодолеть вышеупомянутую проблему. Во-первых, мы используем модель AS2 для ранжирования вариантов ответов на набор вопросов. Затем мы используем кандидата с самым высоким рейтингом в качестве цели генерации, а следующие k лучших кандидатов в качестве контекста для обучения модели GenQA. Мы также предлагаем использовать оценки прогнозирования модели AS2 для взвешивания потерь и формирования входных/выходных данных с учетом оценок, чтобы облегчить передачу знаний. Наша оценка трех общедоступных и одного крупного промышленного набора данных демонстрирует превосходство нашего подхода по сравнению с базовым уровнем AS2 и GenQA, обученным с использованием контролируемых данных.

2. ALFRED-L: Изучение роли языка в обучении действием в интерактивной визуальной среде(arXiv)

Автор:Арджун Р. Акула, Спандана Гелла, Айшвария Падмакумар, Махди Намазифар, МОХИТ БАНСАЛ, Джесси Томасон, Дилек Хаккани-Тур

Аннотация. Для выполнения задачи с воплощенным зрением и языком требуется, чтобы воплощенный агент интерпретировал инструкции на естественном языке и эгоцентрические визуальные наблюдения для навигации по окружающей среде и взаимодействия с ней. В этой работе мы изучаем
ALFRED (Shridhar et al., 2020), сложный эталон для выполнения воплощенных задач, с целью получить представление о том, насколько эффективно модели используют язык. Мы находим доказательства того, что модели на основе последовательностей и преобразователей, обученные на этом эталонном тесте, недостаточно чувствительны к изменениям во входных инструкциях языка. Затем мы создаем новую тестовую группу
— ALFRED-L, чтобы проверить, могут ли модели ALFRED обобщать структуры задач, не встречавшиеся во время обучения, которые интуитивно требуют тех же типов понимания языка, которые требуются в ALFRED. Оценка существующих моделей на ALFRED-L показывает, что (а) модели чрезмерно зависят от последовательности, в которой посещаются объекты в типичных траекториях ALFRED, и не могут адаптироваться к модификациям этой последовательности, и (б) модели, обученные с помощью дополнительных расширенных траекторий, способны относительно лучше адаптироваться к таким изменениям в инструкциях на языке ввода.

3. Переработка многоязычных преобразователей в CNN для масштабируемой классификации намерений(arXiv)

Автор :Бесник Фетаху, Акаш Верагуни, Олег Рохленко, Шервин Малмаси

Аннотация: мы описываем приложение Knowledge Distillation, используемое для выделения и развертывания многоязычных моделей Transformer для голосовых помощников, позволяющих классифицировать текст для клиентов по всему миру. Преобразователи установили новые современные результаты для таких задач, как классификация намерений, а многоязычные модели используют межъязыковую передачу для обслуживания запросов на более чем 100 языках. Однако непомерно высокое время вывода делает их непрактичными для развертывания в реальных сценариях с низкими требованиями к задержке, например, в случае с голосовыми помощниками.

Мы решаем проблему кросс-архитектурной перегонки многоязычных Transformers в более простые модели, сохраняя при этом многоязычность без снижения производительности. Обучению многоязычных студенческих моделей уделялось мало внимания, и это является нашим основным направлением.

Мы показываем, что структура учитель-ученик, в которой немасштабированные активации (логиты) учителя на неразмеченных данных используются для наблюдения за обучением модели ученика, позволяет преобразовать преобразователи в эффективные многоязычные модели CNN. Наша модель ученика достигает производительности, эквивалентной модели учителя, и превосходит аналогичную модель, обученную на размеченных данных, используемых для обучения модели учителя. Этот подход позволил нам точно обслуживать глобальные запросы клиентов по скорости (улучшение в 18 раз), масштабу и низкой стоимости.