В то время как тонкая настройка предварительно обученных языковых моделей стала стандартной практикой НЛП, маркировка данных остается существенным узким местом в НЛП. Чтобы облегчить эту проблему, методы активного обучения (AL) использовались для различных задач НЛП, таких как анализ настроений и классификация документов.

Даже с самыми современными подходами AL количество меток, необходимых для точной настройки языковых моделей, по-прежнему велико, что делает их непомерно высокими, когда человеческие аннотации остаются дорогими и ограниченными. Например, маркировка десятков тысяч выборок данных может оказаться нецелесообразной в таких областях, как медицина или юриспруденция, учитывая затраты и время на маркировку, а также накладные расходы на поиск и обучение экспертов в данной области. С ростом эффективности предварительно обученных языковых моделей мы видим все больший и больший потенциал активной тонкой настройки для последующих приложений в условиях ограниченных ресурсов (например, с использованием менее 1000 образцов, помеченных человеком).

Учитывая такую ​​настройку с низким уровнем ресурсов, интерактивность методов AL является еще одной проблемой. Длительное время ожидания (задержка) между активными итерациями маркировки может нарушить интерактивность процессов разработки модели, создав серьезное узкое место для специалистов по обработке и анализу данных. Низкая задержка необходима на ранних этапах построения модели, когда исследователи НЛП и специалисты-практики стремятся изучить производительность модели с помощью более быстрых итераций AL.

Поэтому важно понимать, как дизайн алгоритмов AL может повлиять на стоимость маркировки и задержку получения, особенно в условиях ограниченных ресурсов и интерактивности.

Существующие активные функции сбора данных

Методы активного обучения интерактивно и итеративно получают новые наборы точек данных для маркировки для обучения/точной настройки моделей. Стратегия, используемая для сбора наиболее информативных данных, часто называется функцией сбора данных и является важной частью разработки алгоритма активного обучения.

Существующие стратегии получения AL обычно основаны либо на неопределенности, либо на разнообразии. Методы, основанные на неопределенности, выбирают точки данных, относительно которых текущая модель наиболее неопределенна, и обычно это точки вблизи границ принятия решений. С другой стороны, методы, основанные на разнообразии, направлены на максимальное разнообразие среди выбранных точек данных. Существуют также гибридные подходы, которые объединяют оба аспекта в цели оптимизации. Однако мы заметили, что все эти подходы получают избыточные выборки на каждой активной итерации, как показано на рисунке ниже.

Рисунок 1. Иллюстрация проблемы избыточности выборки в наборе данных AgNews (Zhang et al., 2015).*

Существующие методы обычно страдают от избыточных выборок внутри итераций или между ними, а также от траты бюджета на маркировку ненужных точек данных. Основываясь на исследовании существующих методов, мы предлагаем новый метод активного обучения: TYROGUE.

Предлагаемая нами структура: TYROGUE

Мы определили два ключевых дизайна, которые могут повысить эффективность и результативность сбора образцов: случайный отбор уменьшает немаркированный пул, рассматриваемый для сбора, и разделяет цели разнообразия и неопределенности при гибридном сборе.

D1. Случайная выборка для уменьшения задержки сбора данных. Первый вариант предполагает применение случайной выборки к немаркированному пулу данных для получения меньшего набора кандидатов для применения функции сбора. Такая фильтрация уменьшает задержку сбора данных, что является узким местом при применении существующих методов в интерактивной среде. Несмотря на значительное снижение вычислительных затрат, мы эмпирически показали, что такая выборка не сильно снижает производительность в условиях ограниченных ресурсов.

D2. Независимое использование выборки по разнообразию и по неопределенности для уменьшения избыточности. Во втором варианте предлагается эффективно сочетать выборку по разнообразию и по неопределенности, чтобы избежать избыточности внутри и между итерациями. Существующие гибридные методы могут страдать от этой избыточности из-за объединения целей неопределенности и разнообразия в единую функцию сбора данных — такие стратегии часто проявляют близость к одной цели, а не к другой. Основная идея заключается в двухэтапном выборе, как показано на диаграмме ниже. Первым шагом является выполнение 1) разнесенной выборки, например,, выбор центров кластеров для уменьшения избыточности внутри итерации. Следующим шагом является 2) выборка неопределенности, например, выбор точек данных с высокой энтропией, чтобы избежать избыточности между итерациями.

Рисунок 2. Общий поток TYROGUE.

Результаты оценки

Чтобы продемонстрировать снижение стоимости маркировки и задержки получения, мы сравнили TYROGUE с SOTA на основе неопределенности (Entropy), на основе разнообразия (FTbertKM) и гибридной (BADGE, ALPS и CAL). методы. Сравнение проводилось по восьми популярным наборам данных, ориентированным на задачи, начиная от классификации тем и заканчивая выводом на естественном языке и обнаружением перефразирования.

Чтобы оценить снижение затрат на маркировку, мы измерили количество помеченных точек данных, необходимых для достижения сопоставимой эффективности прогнозирования с моделями, точно настроенными на всей обучающей выборке (т. е. полностью контролируемыми). Мы установили целевую оценку F1 на уровне 85% и 95% от полностью контролируемой модели. На рис. 3 показано, что с помощью TYROGUE модели могут достичь того же прогноза F1, используя на 43 % меньше помеченных обучающих примеров по сравнению со вторым лучшим алгоритмом сбора данных.

Рисунок 3. Средняя стоимость маркировки (количество выборок данных) за итерацию для достижения 85 % и 95 % оценки F1 с помощью модели, обученной на всем обучающем наборе.

Чтобы обеспечить интерактивный опыт разработки и отладки итеративных моделей, важна задержка алгоритмов сбора данных. На рис. 4 показано время, необходимое для выбора следующей партии образцов для аннотирования для каждого метода сбора данных, усредненное по всем активным итерациям и пяти случайным испытаниям. TYROGUE сокращает время выполнения до 11 раз (по сравнению с CAL на QQP) и является самым быстрым алгоритмом для шести из восьми наборов данных.

Рис. 4. Среднее время сбора данных на одну итерацию для 5 случайных запусков. В отличие от других подходов, время выполнения TYROGUE не увеличивается с увеличением размера наборов данных, что значительно снижает задержку получения данных.

Интересная будущая работа

Адаптивный сбор данных. Компромисс между неопределенностью и разнообразием необходим для активных алгоритмов сбора данных. Мы считаем, что TYROGUE и наблюдения в этой работе закладывают основу для будущей работы над адаптивными функциями сбора данных, которые уравновешивают обе цели. Мы стремимся исследовать стратегии для достижения оптимального баланса неопределенности и разнообразия, принимая во внимание такие аспекты, как производительность модели и характеристики набора данных.

Внедрение в практические системы. Мы считаем, что наш многоэтапный адаптивный подход можно внедрить в любую платформу аннотаций. Такие структуры могут обеспечить быстрые итерации на ранних этапах построения модели. Поэтому понимание того, как TYROGUE можно интегрировать в существующие платформы аннотаций, представляет собой интересную исследовательскую задачу.

Прозрачность и контроль для практиков. Интерактивный AL по-прежнему является недостаточно изученным подходом, который требует дальнейших исследований. Предлагаемый нами дизайн дает пользователям возможность контролировать баланс между целями приобретения. Однако крайне важно понимать, как такие аспекты, как прозрачность структуры и интерпретируемость модели, могут повлиять на работу пользователей, когда они рассуждают о параметрах управления.

Пожалуйста, ознакомьтесь с нашим документом с выводами EMNLP, если вас интересуют более подробные сведения.

* (a) показывает 2D-проекцию вложений BERT, где цвета обозначают метки основных классов истинности. (b) Методы, основанные на неопределенности, как правило, получают аналогичные точки данных из определенной области в рамках итерации (см. красную рамку). © Методы, основанные на разнообразии, как правило, собирают точки данных, аналогичные образцам, полученным в предыдущих итерациях (см. синие кружки). (d) Гибридные методы могут страдать от проблемы избыточности выборки в зависимости от того, какую цель они ставят в приоритет, то есть, разнообразие (BADGE [Ash et al., 2020] и ALPS [Yuan et al., 2020]) по сравнению с неопределенностью (CAL [Маргатина и др., 2021]).

Авторы: Дэн Чжан и Мегагон Лабс.

Подпишитесь на нас в LinkedIn и Twitter, чтобы быть в курсе последних событий.