Последние разработки в области обработки естественного языка, часть 1

1.Искусственный интеллект, обработка и понимание естественного языка в космосе: четыре тематических исследования ЕКА (arXiv)

Автор:Хосе Мануэль Гомес-Перес, Андрес Гарсия-Сильва, Розмари Леоне, Мирко Альбани, Мориц Фонтейн, Шарль Понсе, Леопольд Саммерер, Алессандро Донати, Илария Рома, Стефано Скальони

Аннотация: Европейское космическое агентство хорошо известно как мощная сила научных открытий во многих областях, связанных с космосом. Объем и глубина знаний, полученных в ходе различных миссий, выполняемых ЕКА, и их вклад в научный прогресс огромны, включая большие коллекции документов, таких как научные публикации, технико-экономические обоснования, технические отчеты и процедуры управления качеством, среди многих других. Благодаря таким инициативам, как Платформа инноваций в открытом космосе, ЕКА также выступает в качестве центра для новых идей, исходящих от более широкого сообщества по различным проблемам, внося свой вклад в благотворный круг научных открытий и инноваций. Обработка такого огромного количества информации, большую часть которой составляет неструктурированный текст, представляет собой колоссальную задачу, выходящую за рамки человеческих возможностей и, следовательно, требующую автоматизации. В этой статье мы представляем методологическую основу, основанную на искусственном интеллекте и обработке и понимании естественного языка, для автоматического извлечения информации из космических документов, создания из нее ценности, и иллюстрируем эту основу с помощью нескольких тематических исследований, реализованных в различных функциональных областях ЕКА, включая Миссию. Дизайн, обеспечение качества, долгосрочное хранение данных и платформа инноваций Open Space. При этом мы демонстрируем ценность этих технологий в нескольких задачах, начиная от простого поиска и рекомендации информации о космосе и заканчивая автоматическим определением инновационности идеи, ответами на вопросы о космосе и созданием викторин, касающихся процедур обеспечения качества. Каждое из этих достижений представляет собой шаг вперед в применении все более интеллектуальных систем искусственного интеллекта в космосе, от структурирования и облегчения доступа к информации до интеллектуальных систем, способных понимать и анализировать такую информацию.

2. Десятилетие графов знаний в области обработки естественного языка: опрос (arXiv)

Автор:Филипп Шнайдер, Тим Шопф, Юрай Владика, Михаил Галкин, Елена Симперл, Флориан Маттес

Аннотация. В связи с развитием исследований в области искусственного интеллекта графы знаний (ЗЗ) вызвали всплеск интереса как в научных кругах, так и в промышленности. Как представление семантических отношений между сущностями, KG оказались особенно актуальными для обработки естественного языка (NLP), получив быстрое распространение и широкое распространение в последние годы. Учитывая растущий объем исследовательской работы в этой области, исследовательское сообщество НЛП рассмотрело несколько подходов, связанных с КГ. Тем не менее, всестороннее исследование, которое классифицирует установленные темы и анализирует зрелость отдельных направлений исследований, по сей день отсутствует. Чтобы восполнить этот пробел, мы систематически проанализировали 507 статей из литературы по КГ в НЛП. Наш обзор включает в себя многогранный обзор задач, типов исследований и вкладов. В результате мы представляем структурированный обзор исследовательского ландшафта, предоставляем классификацию задач, обобщаем наши выводы и выделяем направления для будущей работы.

3. DR.BENCH: Тест диагностических рассуждений для клинической обработки естественного языка (arXiv)

Автор: Янджун Гао, Дмитрий Длигач, Тимоти Миллер, Джон Каски, Брихат Шарма, Мэтью М. Чурпек, Маджид Афшар

Аннотация. Эффективное использование электронных медицинских карт (EHR) продолжает развиваться в цифровую эпоху благодаря системам поддержки принятия клинических решений, дополненным искусственным интеллектом. Приоритетом в улучшении опыта поставщиков услуг является преодоление информационной перегрузки и снижение когнитивной нагрузки, чтобы при оказании помощи пациентам было допущено меньше медицинских ошибок и когнитивных предубеждений. Одним из основных видов медицинских ошибок являются диагностические ошибки из-за систематических или предсказуемых ошибок в суждениях, основанных на эвристике. Потенциал клинической обработки естественного языка (cNLP) для моделирования диагностических рассуждений у людей с опережающими рассуждениями от данных к диагнозу и потенциального снижения когнитивной нагрузки и медицинских ошибок не исследовался. Существующие задачи по развитию науки в cNLP в основном сосредоточены на извлечении информации и распознавании именованных сущностей с помощью задач классификации. Мы представляем новый набор задач, придуманный как тесты диагностических рассуждений, DR.BENCH, в качестве нового эталона для разработки и оценки моделей cNLP с возможностью клинического диагностического мышления. Пакет включает шесть задач из десяти общедоступных наборов данных, направленных на понимание клинического текста, обоснование медицинских знаний и постановку диагноза. DR.BENCH — это первый клинический набор задач, предназначенный для использования в качестве основы генерации естественного языка для оценки предварительно обученных языковых моделей. Эксперименты с современными предварительно обученными генеративными языковыми моделями с использованием больших моделей общей предметной области и моделей, которые постоянно обучались на медицинском корпусе, демонстрируют возможности для улучшения при оценке в DR. ЛАВКА. Мы разделяем ДР. BENCH как общедоступный репозиторий GitLab с систематическим подходом к загрузке и оценке моделей для сообщества cNLP.

Последние разработки в области обработки естественного языка, часть 1

Вопросы по теме