Проверка текста с помощью алгоритмов обработки естественного языка

Когда я веду курсы по приборам и измерениям, меня часто удивляет утверждение: «Ученые — это члены нашей цивилизации, которым поручено открывать, документировать и распространять истину». Затем я трачу больше нескольких минут, оправдывая это утверждение. Чтобы подтвердить это утверждение, подумайте о последствиях, с которыми сталкиваются другие профессии, не имеющие дело с фактами. Преувеличения в рекламе приводят к увеличению продаж, поэтическая вольность используется для приукрашивания солидных историй в драматические сценарии, а политическая грязь рассматривается просто как жесткая игра. Напротив, фальсификация результатов научных исследований уничтожила отдельные карьеры и целые организации. Если вам нужно узнать правду, спросите ученого.

Министерство внутренней безопасности США (DHS) знает об этом факте и предоставило многомиллионный исследовательский грант сотрудникам факультетов компьютерных наук Университета Питтсбурга, Корнельского университета и Университета Юты для разработки автоматизированных алгоритмов. способность отличать факты от мнений в письменном тексте. Группу возглавляет профессор Дженис Вибе, директор программы интеллектуальных систем Питта, и она использует таланты профессора Клэр Карди из Корнелла и профессора Эллен Рилофф из Юты, которые являются экспертами в области обработки естественного языка (НЛП). Несмотря на то, что чтение и письмо составляют две трети основных тем образования, компьютеры в настоящее время демонстрируют способность только к последней трети арифметики. НЛП — это область алгоритмического интеллекта, стремящаяся наполнить компьютерные системы диалоговым интерфейсом. В то время как интеллектуальный анализ данных успешно находит взаимосвязь между ценой и цифрами продаж, данные должны быть собраны и должным образом отформатированы операторами-людьми, способными извлекать информацию из письменных отчетов. Интерфейс НЛП увеличил бы скорость этого процесса и позволил бы анализировать данные, появляющиеся во всемирной социальной базе данных, содержащей новости, блоги и дискуссионные группы, которые мы называем Интернетом.

Простой перевод текста в цифровое представление значения сам по себе является сложным процессом; однако, чтобы результаты интеллектуального анализа данных были хоть сколько-нибудь достоверными, в первую очередь должны быть верны исходные данные. Страдая аксиомой «мусор на входе = мусор на выходе», системы НЛП должны обладать способностью различать факты и мнения. Если бы кто-то прочитал тексты начала шестнадцатого века о природе нашей вселенной, простой опрос показал бы, что большинство считает, что Земля находится в центре. Гелиоцентрические теории считались бы маргинальной ересью, даже если бы они сопровождались подтверждающими фактами. Современная забота DHS заключается в том, чтобы выделить ресурсы на воображаемую угрозу или отклонить реальную угрозу как ложную.

Грант DHS призывает к разработке точных (читай правдивых) и надежных методов извлечения, обобщения и отслеживания информации о глобальных событиях и убеждениях из свободного текста. Как и для всех научных инструментов, этот процесс обеспечивается надлежащей калибровкой. Прежде чем использовать аналитические весы для проведения измерений, необходимо показать принятое стандартное понятие одного грамма. Инструменты НЛП должны быть обучены распознавать характерные для предметной области модели и отношения, которые определяют разницу между утвержденными фактами и субъективными убеждениями. Это включает в себя использование традиционных методов классификации, которые были обучены распознавать утверждения как утверждения, когда они сопровождаются такими словами, как «сказал» и «согласно», и как субъективные мнения, когда они модифицированы переходными глаголами, такими как «страх», «подозревает» или « предлагает». Субъективные выражения затем дополнительно классифицируются по их источнику, чтобы их можно было оценить по уровню их экспертной достоверности. «…предполагает, что завтра будет снег» более надежен, когда появляется в депеше Национальной метеорологической службы, чем на странице ежедневного гороскопа.

Разработка новых научных инструментов часто сопровождается уточнением нашего понимания Вселенной. Как ученый, мне не терпится увидеть способность этого инструмента извлекать правду из такого обширного источника информации. Как редактор, я также очень хочу увидеть результаты, когда это будет применено к первым полосам главных газет нашей страны.

Первоначально этот материал был опубликован как редакционная статья в журнале Scientific Computing23:12, ноябрь 2006 г., стр. 10.

Уильям Л. Уивер — адъюнкт-профессор кафедры интегрированных наук, бизнеса и технологий Университета Ла Саль в Филадельфии, штат Пенсильвания, США. Он имеет B.S. Получил двойную степень по химии и физике и получил докторскую степень. в аналитической химии с опытом в сверхбыстрой лазерной спектроскопии. Он преподает, пишет и рассказывает о применении системного мышления для разработки новых продуктов и инноваций.