Тестовый набор данных для поиска кросс-языковой информации (CLIR)

Мысли и теория

Тестовый набор данных для поиска кросс-языковой информации (CLIR)

Наш представленный набор данных позволяет исследователям создавать и оценивать системы CLIR на английском и семи европейских языках в медицинской области.

Вступление

В этой истории я представлю наш вклад в расширение существующих наборов данных для кросс-языкового поиска информации (CLIR), которые были выпущены во время задач информационного поиска (IR) лаборатории CLEF eHealth Evaluation Lab. Полученный набор данных направлен на построение и оценку (CLIR) в медицинской области. Поддерживаемые языки: английский, чешский, французский, немецкий, венгерский, польский, испанский и шведский.

Что такое поиск кросс-языковой информации (CLIR)?

CLIR позволяет пользователям искать информацию, задавая запросы на языке, отличном от языка коллекции. Это помогает преодолеть языковой барьер между пользователями системы и огромным объемом данных, представленных на разных языках. Задача привлекла внимание исследовательского сообщества IR с конца 1990-х годов, и рост Интернета стал убедительным доказательством необходимости системы CLIR, поскольку цифровой контент по всему миру начал значительно увеличиваться.

CLIR и COVID19

Во время пандемии COVID19 CLIR стал значительно более важным, чем когда-либо прежде, потому что люди, политики и врачи хотели узнать больше о COVID19 и прочитать рассказы, протоколы лечения и демонстрации борьбы с COVID19 со всего мира. Такая информация, конечно же, доступна на нескольких языках, на которых они, вероятно, не говорят.

Одной из последних попыток улучшить поиск и доступ к информации по теме COVID19 была COVID19 MLIA EvaL: Covid-19 MLIA Eval организует усилия сообщества по оценке, направленные на ускорение создания ресурсов и инструментов для улучшенного многоязычного доступа к информации (MLIA) в текущая чрезвычайная ситуация со ссылкой на общедоступный вариант использования , источник: Сайт MLIA .

Подходы к CLIR

Система CLIR обычно включает два шага, первый шаг - это шаг перевода, который включает в себя перевод либо запросов на язык коллекции документов, либо перевод коллекции документов на язык запросов. После того, как перевод сделан, задача сводится к одноязычной IR-задаче.

Различные подходы и исследования исследовали два основных вопроса в задаче CLIR:

Что лучше перевести, запросы или сборник документов? Или перевести и то, и другое в общее представление?
Как сделать перевод? Похожа ли задача перевода в CLIR на обычную задачу машинного перевода, направленную на создание удобочитаемых переводов?

Для получения дополнительной информации об этих двух подходах я ссылаюсь на статью, которую я опубликовал в прошлом году на конференции Ассоциации лингвистики (ACL), в которой я провел тщательное сравнение двух вышеуказанных подходов.

Перевод документов и перевод запросов для поиска межъязыковой информации в медицине…
Резюме Мы представляем тщательное сравнение двух основных подходов к поиску межъязыковой информации: документ… www.aclweb.org

CLIR и COVID19

Поиск в области медицины стал очень важным во время пандемии COVID19, потому что отдельные лица, политики и врачи хотят быть в курсе последних событий, получая доступ к информации, доступной на нескольких языках в Интернете. Фактически, инициатива Многоязычный доступ к информации о COVID-19 (MLIA) была последним мероприятием, которое пригласило исследователей со всего мира разработать системы поисковых систем, которые помогают поисковикам находить информацию, связанную с COVID19, в Интернете на нескольких языках.

Наш набор тестовых данных CLIR

Набор тестовых данных основан на трех тестовых наборах, которые были выпущены во время задач IR, ориентированных на пациента электронного здравоохранения CLEF, 2013–2015 гг. [Goeuriot et al., 2015, 2014, Suominen et al., 2013]. Мы расширяем набор тестов в основном за счет перевода запросов на большее количество языков и увеличения оценки релевантности более чем в два раза по сравнению с исходными. Расширенная коллекция тестов доступна онлайн через репозиторий LINDAT / CLARIN.

Набор тестовых данных состоит в основном из трех частей:

1- Сбор документов

Набор документов в наших расширенных данных взят из задачи CLEF eHealth IR 2015. Документы были предоставлены в формате HTML. Каждый документ содержит разметку HTML, код CSS и javascript.

Коллекция включает около 1,1 миллиона документов, сканированных с медицинских сайтов. Более подробную информацию о коллекции документов можно найти в [1].

2-запросы

Запросы в этой работе взяты из наборов тестов, которые были выпущены во время задач CLIR CLEF eHealth 2013–2015, а именно:

Запросы за 2013 и 2014 гг. аннотации пациентов.

Мотивация выбора медицинских экспертов (медсестер и практикующих врачей) для генерации запросов заключается в том, что эти эксперты ежедневно общаются с пациентами; таким образом, они могут понять свою потребность в информации.

Запросы генерировались следующим образом: медицинским экспертам давали выписки из выписки, и их просили случайным образом выбрать заболевание, а затем написать короткий запрос с его описанием. Они предположили, что пациенты будут использовать тот же запрос, когда захотят найти дополнительную информацию о том же заболевании. Привлечение медицинских экспертов для генерации запросов из выписок повлияло на характер запросов: они содержали медицинские термины и, как правило, были краткими.

Запросы за 2015 год. В CLEF eHealth Evaluation Lab 2015 задача IR называлась получением информации о медицинских симптомах [Palotti et al., 2015]. Целью задачи было разработать IR-системы, которые могут помочь непрофессионалам (пользователям без медицинского опыта) найти информацию, касающуюся их состояния здоровья, и понять, что вызвало их симптомы (самодиагностика). Таким образом, при создании запросов в этой задаче была предпринята попытка максимально смоделировать реальный случай.

На этапе создания запроса участвовали студенты университетов без медицинского опыта, как попытка смоделировать случай обычного пользователя поисковой системы.

Им были показаны изображения и видеоролики, содержащие симптомы медицинских проблем. Затем их попросили сгенерировать запросы для каждого случая, поскольку, по их мнению, эти запросы будут отражать их информационные потребности и в конечном итоге приведут их к соответствующим документам.

Новое разделение данных. Как было показано в двух предыдущих абзацах, основное различие между запросами в лабораториях CLEF eHealth IR 2013, 2014 и 2015 гг. заключалось в источнике этих запросов и в тенденции к использованию медицинских терминов. в 2013–2014 гг., в отличие от 2015 г.

Мы хотим разработать систему CLIR, которая будет стабильной для такого разнообразия пользовательских запросов, а не проектировать систему, предвзятую одному типу запросов (короткие с медицинскими терминами или длинные запросы без медицинской терминологии).

Чтобы приблизиться к этому, мы получили тестовые запросы от каждой задачи IR в 2013 г. (50 запросов), 2014 г. (50 запросов) и 2015 г. (66 запросов). Мы смешали их, чтобы получить более репрезентативный и сбалансированный набор запросов, а затем разделили эти запросы на два набора: 100 запросов для обучения (33 запроса из набора тестов 2013 г., 32 из 2014 г. и 35 из 2015 г.) и 66 запросов для тестирования (17 запросов из Набор тестов 2013 г., 18 запросов из 2014 г. и 31 из 2015 г.).

Эти два набора стратифицированы с точки зрения распределения года их происхождения, количества релевантных / нерелевантных документов, которые существуют в информации оценки релевантности, и длины запроса (количества токенов).

Запросы за все годы были представлены в формате aTREC (TREC - сокращение от NIST's Text REtrieval Conference) следующим образом:

• Заголовок: это поле содержит заголовок запроса, обычно называемый запрос. В этом поле должна быть представлена информация о пользователях, и это поле в конечном итоге будет передано в IR-систему для проведения поиска.

• Д подписка: это поле помогает описать заголовок более длинным предложением.

• Нет арратива: это поле предназначено для описания комментаторам, что должны содержаться в соответствующих документах. Это поле полезно для процесса оценки релевантности, а не на этапе поиска.

• P rofile: информация о пациенте, который должен выполнять самодиагностику, например его пол, возраст и другая медицинская информация.

• D ischarge_summary: это поле содержит обработчик (идентификатор) текстового файла, который содержит сводку выписки соответствующего пациента.

3- Оценка релевантности

Оценка релевантности - это процесс, когда судьи (люди с опытом работы в данной области) определяют, соответствует ли каждый документ конкретному запросу.

Мы создали пул документов с самым высоким рейтингом, которые были извлечены с использованием нескольких систем, а затем оценщики просмотрели каждую пару документ-запрос и определили для нее степень релевантности. Степень актуальности может быть:

Нерелевантно: когда документ вообще не имеет отношения к необходимой информации.
В некоторой степени актуально: документ частично отвечает потребности в информации. Это означает, что некоторая информация упускается, и поисковик должен прочитать больше документов, чтобы получить полный ответ на свой вопрос.
Высокая релевантность: документ полностью удовлетворяет потребность в информации, и нет необходимости читать какие-либо другие документы.

Мы используем Relevation toolkit, который представляет собой инструмент с открытым исходным кодом для проведения оценки релевантности для оценки IR [Koopman and Zuccon, 2014].

В следующей таблице показана статистика официальной оценки (которая проводилась в 2013, 2014 и 2015 годах) по сравнению с нашим расширением с точки зрения количества оцененных документов. Расширенный набор данных содержит всего 38 , 109 пар документ-запрос, из которых 14 , 368 пар оцениваются нами.

Заключение

В этой истории я представил наши усилия по расширению существующих наборов данных для поддержки CLIR на семи европейских языках. Набор данных доступен публично здесь.

Полное описание этого набора данных было опубликовано в небольшой статье на Европейской конференции по информационному поиску (ECIR) 2019 [2].

Если у вас есть какие-либо вопросы по поводу этой работы, не стесняйтесь писать свой вопрос в комментариях.

использованная литература

[1] Палотти и др .: Лаборатория оценки электронного здравоохранения CLEF 2015, Задача 2: Получение информации о медицинских симптомах, CEUR-WS.org
[2] Шади Салех и Павел Печина, Расширенная коллекция тестов CLEF eHealth для кросс-языкового поиска информации в области медицины, (2019), Европейская конференция по информационному поиску 2019, Springer.

Тестовый набор данных для поиска кросс-языковой информации (CLIR)

Мысли и теория