Обучение с подкреплением для классификации отношений на основе зашумленных данных

Этот пост в блоге направлен на объяснение документа https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/17151/16140 на высоком уровне.

Классификация отношений. Учитывая предложение и две сущности, которые присутствуют в предложении, извлеките связь между ними, как указано в предложении. Например, если предложение «Обама родился в Соединенных Штатах», а объектами являются Обама и Соединенные Штаты, тогда отношение будет «Рожденный в Соединенных Штатах».

Предыдущие исследования пытались решить эту проблему, применяя различные алгоритмы машинного обучения к традиционным функциям ручной работы. Они также использовали Deep Learning, но не смогли добиться высокой производительности из-за отсутствия аннотированных данных. Затем было предложено решение этой проблемы, названное Методом Дистанционного Наблюдения.

Метод удаленного наблюдения. Этот метод использует текущие аннотированные данные и пытается создать дополнительные данные. Если два объекта имеют отношение в данной базе знаний (уже доступные аннотированные данные), то предполагается, что все предложения, содержащие эти два объекта, также будут нести это отношение.

Этот метод успешно увеличил объем данных, но также создал проблему зашумленных данных. Из-за предположения, сделанного в этом методе, в набор данных было включено много ложных примеров.

Затем исследователи попытались уменьшить эффект «проблемы шумной маркировки», обучая свои классификаторы на уровне пакетов, а не на уровне предложений. Это улучшило производительность, но не сильно. Еще одна проблема заключалась в том, что мы не могли извлечь отношение на уровне предложения.

Решение. В этом документе предлагается решение, основанное на обучении с подкреплением, которое состоит из двух модулей.

Выбор экземпляра
Классификатор отношений

Селектор экземпляров. Этот модуль отвечает за извлечение предложений, которые, скорее всего, помечены правильно. Таким образом, учитывая набор предложений вместе с их сущностями и отношением, этот модуль извлекает предложения, которые действительно описывают отношение.

Это было достигнуто с помощью обучения с подкреплением. Типичная модель обучения с подкреплением имеет среду, в которой агентвыполняет некоторыедействия, используя некоторую политику, а затем получает обратная связь от среды, которая называется Награда. В этом случае агент сам является селектором экземпляра. Чтобы выполнить действие, агент анализирует текущее состояние, а затем выбирает действие. Текущее состояние представлено текущим предложением, всеми ранее выбранными предложениями и сущностями, присутствующими в текущем предложении. После просмотра текущего состояния агент принимает решение о том, следует ли выбирать текущее предложение. Это действие предпринимается на основе некоторой стохастической политики, которая изучена в этой модели. После выбора эти предложения отправляются на вторую модель, которая затем возвращает вознаграждение.

Классификатор отношений. Это простой текстовый классификатор на основе CNN. Он берет предложение и информацию о сущностях, закодированных как расстояния от каждого слова, и выводит отношение.

Результаты. Этот подход улучшил производительность классификации отношений по сравнению с базовыми показателями, как и ожидалось. Но больше всего меня заинтересовала точность Instance Selector. Этот модуль смог выбрать правильные предложения в 74% случаев.

Для меня реальное продвижение, которое эта статья привносит в эту область, — это селектор экземпляров. Если мы сможем улучшить классификатор отношений, мы сможем использовать эту настройку, чтобы генерировать все больше и больше данных.

Обучение с подкреплением для классификации отношений на основе зашумленных данных

Вопросы по теме