Что люди спрашивают о COVID-19? Новый набор данных для классификации вопросов

COVID-Q - это новый набор данных из 1690 вопросов о COVID-19, которые разделены на 15 категорий вопросов и 207 классов вопросов.

Проблема. Одна из самых больших проблем во время крупных пандемий, таких как нынешняя пандемия COVID-19, - это возможность держать людей в курсе последних и наиболее актуальных Информация. Несмотря на то, что авторитетные источники, такие как CDC и FDA, поддерживают сайты часто задаваемых вопросов по COVID-19, пользователям все равно может быть сложно найти свои вопросы, и многие общие вопросы останутся без ответа.

Я работал с другими исследователями над составлением COVID-Q [Dataset Link], набора данных о COVID-19, в надежде, что этот набор данных будет полезен другим исследователям. Полную версию нашей статьи можно найти здесь.

Набор данных - общий обзор. COVID-Q - это набор данных из 1690 вопросов о COVID-19 из тринадцати онлайн-источников. Набор данных аннотируется путем классификации вопросов по 15 категориям вопросов и группировки вопросов, которые задают одно и то же, по 207 классам вопросов.

COVID-Q можно использовать для решения нескольких задач, связанных с пониманием вопросов:

Категории вопросов можно использовать в качестве стандартной задачи классификации текста для определения общей категории информации, о которой задается вопрос.
Классы вопросов могут использоваться для поиска ответов на вопросы. В этой задаче в системе есть база данных вопросов и ответов. При появлении нового вопроса система должна найти в базе данных вопрос, который задает то же, что и данный вопрос, и вернуть соответствующий ответ.

Сбор и обработка данных. Для сбора данных были проанализированы тринадцать источников, чтобы собрать вопросы о COVID-19; семь из этих источников были официальными веб-сайтами часто задаваемых вопросов от авторитетных организаций, таких как CDC и FDA, а шесть источников были основаны на краудфандинге (например, Quora, Yahoo Answers).

Аннотация к данным. Набор данных аннотируется двумя способами. Во-первых, вопросы, которые задают одно и то же, были вручную сгруппированы в классы вопросов. Два вопроса были определены как задающие одно и то же, если на них можно было ответить одним и тем же ответом. Затем каждому классу вопросов с как минимум двумя вопросами было дано имя, которое резюмировало то, о чем спрашивал класс вопросов. Затем они были использованы для помещения каждого класса вопросов в одну из 15 категорий вопросов, показанных на рисунке выше. Вы также можете увидеть распределение классов вопросов на рисунке ниже.

Качество аннотации. Теперь вы можете спросить: Если эти вопросы были помечены вручную, как мы можем быть уверены, что вы не сошли с ума от аннотаций? Что ж, справедливый момент. Чтобы проверить качество аннотаций, метки были пропущены через двух соавторов в двух раундах проверки. В ходе этих проверок каждый соавтор независимо исследовал метку категории и класса, присвоенную каждому вопросу, чтобы убедиться, что метки были правильными. В первом раунде валидации было заменено 67 этикеток. Во втором раунде проверки были изменены еще 15 этикеток.

Мы также проверили аннотации, показав 3 случайных вопроса из каждого класса вопросов, по крайней мере, с четырьмя вопросами трем рабочим Mechanical Turk. Получив вопрос, мы попросили каждого сотрудника выбрать класс вопросов, который лучше всего описывает вопрос, из пяти вариантов, одна из которых была нашей исходной аннотацией. По этим выборочным вопросам 93,3% наших лейблов согласились с большинством голосов рабочих.

Несоответствие часто задаваемых вопросов. Мы обнаружили кое-что интересное, что на сайтах часто задаваемых вопросов правительственных организаций, таких как CDC и FDA, большая часть вопросов не соответствовала вопросам из других источников. Например, 44,6% часто задаваемых вопросов CDC не имеют себе равных, а 42,1% часто задаваемых вопросов FDA не имеют себе равных. Кроме того, 54,2% классов вопросов с вопросами как минимум из двух неофициальных источников остались без ответа со стороны официального источника. Эти данные, по-видимому, предполагают несоответствие между тем, что организации думают, что люди спрашивают о COVID-19, и тем, что люди на самом деле спрашивают о COVID-19.

Вопросы, созданные автором. Поскольку набор данных невелик при разделении на наборы для обучения и тестирования, вручную было сгенерировано 249 вопросов. Эти вопросы были аннотированы и проверены так же, как и другие вопросы.

Задачи классификации вопросов. Как указывалось ранее, COVID-Q можно использовать для классификации вопросов по категориям (о каком типе информации задается этот вопрос?) и вопроса классификация (какой еще вопрос задает то же, что и этот вопрос?).

Классификация вопросов по категориям. Задача классификация вопросов по категориям относит каждый вопрос к широкой категории. В качестве исходного уровня мы выбрали 20 случайных вопросов для каждой категории обучающей выборки и поместили оставшиеся вопросы в тестовую выборку. Это разбиение набора данных можно увидеть в таблице ниже.

Мы используем машину опорных векторов (SVM) и классификацию k-ближайшего соседа на основе косинусного сходства (k-NN) с k = 1 в качестве базовых моделей для нашего набора данных. Эти модели оценивались по вопросам путем получения жетонов BERT для каждого вопроса. Мы также протестировали несколько простых методов увеличения данных. Эти результаты можно увидеть в таблице ниже.

Классификация вопросов и классов. Для выполнения задачи классификации классов вопросов требуется, чтобы тестовый вопрос был сгруппирован в класс вопросов, который задает то же самое. В качестве основы мы рассматриваем только классы вопросов, содержащие не менее четырех вопросов. Мы разделили по три вопроса из каждого класса на обучающую выборку, а оставшиеся вопросы - на тестовую. Это разбиение набора данных можно увидеть в таблице ниже.

Для базовых моделей мы используем базовый уровень k-NN из классификации вопросов по категориям, а также используем простую модель, которая использует тройную функцию потерь для обучения двухслойной нейронной сети. Эти модели также оценивались по вопросам путем получения жетонов BERT для каждого вопроса. Точно так же мы также запускаем увеличение данных для этой задачи. Эти результаты можно увидеть в таблице ниже.

Заключение. COVID-Q - это новый набор данных из 1690 вопросов о COVID-19 из тринадцати источников, аннотированных 15 метками категорий и 207 метками классов. COVID-Q может напрямую помочь в обучении системам вопросов и ответов или служить ресурсом для оценки. Для COVID-Q включены простые базовые показатели BERT. Дальнейшая работа включает в себя сбор дополнительных вопросов (возможно, в сотрудничестве с компаниями, занимающимися поисковыми системами) или оценку более сложных моделей.

Полный набор данных можно найти здесь.

Полную версию статьи можно найти здесь.

Что люди спрашивают о COVID-19? Новый набор данных для классификации вопросов

COVID-Q - это новый набор данных из 1690 вопросов о COVID-19, которые разделены на 15 категорий вопросов и 207 классов вопросов.

Вопросы по теме