Текстовые корпуса - это форма множественного числа текстового корпуса. Текстовые корпуса — это большие и структурированные наборы текстов или текстовых данных, обычно состоящие из письменных или устных текстов, часто хранящихся в электронной форме. Это включает в себя преобразование старых исторических корпусов текстов из физической формы в электронную, чтобы их можно было легко анализировать и обрабатывать. Основная цель корпусов текстов состоит в том, чтобы использовать их для лингвистического и статистического анализа и использовать их в качестве данных для создания инструментов НЛП. Одноязычные корпуса состоят из текстовых данных только на одном языке, а многоязычные корпуса состоят из текстовых данных на нескольких языках.

Чтобы понять значение корпусов текстов, необходимо понять их происхождение и причины, лежащие в их основе. Все началось с появления лингвистики и людей, собирающих данные, связанные с языком, для изучения его свойств и структуры. В 1950-х годах для анализа собранных данных использовались статистические и количественные методы. Но эта попытка вскоре зашла в тупик из-за отсутствия большого количества текстовых данных, к которым можно было бы эффективно применить статистические методы. Кроме того, большое внимание уделялось когнитивному обучению и поведенческим наукам. Это дало возможность выдающемуся лингвисту Ноаму Хомскому построить и сформулировать сложную языковую модель, основанную на правилах, которая легла в основу построения, аннотирования и анализа больших корпусов текстов.

Аннотации корпусов и утилиты

Текстовые корпуса аннотируются богатыми метаданными, что чрезвычайно полезно для получения ценной информации при использовании корпусов для НЛП и текстовой аналитики. Популярные аннотации для корпусов текстов включают теги частей речи (POS), основы слов, леммы и многое другое. Вот некоторые из наиболее часто используемых методов и приемов аннотирования корпусов текстов:

  • Теги POS: в основном используется для аннотирования каждого слова тегом POS, указывающим на связанную с ним часть речи.
  • Основы слов. Основа слова — это часть слова, к которой могут присоединяться различные аффиксы.
  • Словесные леммы. Лемма – это каноническая или базовая форма набора слов, также известная как заглавное слово.
  • Грамматика зависимостей. Это включает в себя выявление различных отношений между компонентами в предложениях и аннотирование зависимостей.
  • Грамматика составных частей: используется для добавления синтаксической аннотации к предложениям на основе их составляющих, включая фразы и предложения.
  • Семантические типы и роли. Различные составляющие предложений, включая слова и фразы, снабжены аннотациями с определенными семантическими типами и ролями, часто полученными из онтологии, которая указывает, что они делают. К ним относятся такие вещи, как место, человек, время, организация, агент, получатель, тема и так далее.

Расширенные формы аннотаций включают добавление синтаксической и семантической структуры текста. Это деревья синтаксического анализа на основе грамматики зависимостей и избирательных округов. Эти специализированные корпуса, также известные как банки деревьев, широко используются при создании тегов POS, синтаксических и семантических парсеров. Корпуса также широко используются лингвистами для создания новых словарей и грамматики.

Такие свойства, как согласованность, словосочетания и подсчет частоты, позволяют им находить лексическую информацию, шаблоны, морфосинтаксическую информацию и изучать язык. Помимо лингвистики, корпуса широко используются в разработке инструментов НЛП, таких как текстовые теги, распознавание речи, машинный перевод, средства проверки орфографии и грамматики, синтезаторы преобразования текста в речь и речи в текст, поиск информации, распознавание сущностей и извлечение знаний.

Популярные корпуса

Было создано несколько популярных ресурсов для текстовых корпусов, которые со временем развивались. В этом разделе перечислены некоторые из самых известных и популярных корпусов, которые разожгут ваш аппетит. Вы можете изучить и узнать более подробную информацию о корпусах текстов, которые бросаются в глаза. Вот некоторые популярные текстовые корпуса, созданные с течением времени:

  • Ключевое слово в контексте. KWIC — это методология, изобретенная в 1860-х годах, но широко используемая лингвистами примерно в 1950-х годах для индексации документов и создания корпусов конкордансов.
  • Коричневый корпус: это был первый корпус из миллиона слов для английского языка, опубликованный Кусерой и Фрэнсисом в 1961 году, также известный как «Стандартный корпус современного американского английского». Этот корпус состоит из текстов из самых разных источников и категорий.
  • Корпус LOB: Корпус Ланкастер-Осло-Берген (LOB) был составлен в 1970-х годах в результате сотрудничества между Университетом Ланкастера, Университетом Осло и Норвежским вычислительным центром гуманитарных наук. Берген. Основной мотивацией этого проекта было создание британского аналога корпуса Брауна. Этот корпус также представляет собой корпус из миллиона слов, состоящий из текстов из самых разных источников и категорий.
  • Collins Corpus: Международная языковая база данных Коллинза Бирмингемского университета (COBUILD), созданная в 1980 году в Бирмингемском университете и финансируемая издательством Collins, создала большой электронный корпус современных текстов на английском языке, также проложили путь для будущих корпусов, таких как Bank of English и Collins COBUILD English Language Dictionary.
  • CHILDES. Система обмена данными о детском языке (CHILDES) – это корпус, созданный Брайаном и Кэтрин в 1984 году и служащий хранилищем данных о языковых навыках, включая стенограммы, аудио- и видеоматериалы на 26 языках из более 130 различных корпусов. Недавно он был объединен с более крупным корпусом Talkbank. Он широко используется для анализа языка и речи маленьких детей.
  • WordNet: этот корпус представляет собой семантико-ориентированную лексическую базу данных для английского языка. Он был создан в Принстонском университете в 1985 году под руководством Джорджа Армитиджа. Корпус состоит из слов и наборов синонимов (синсетов). Помимо этого, он состоит из определений слов, отношений и примеров использования слов и синсетов. В целом, это сочетание словаря и тезауруса.
  • Penn Treebank: этот корпус состоит из размеченных и проанализированных английских предложений, включая аннотации, такие как теги POS и деревья синтаксического анализа на основе грамматики, обычно встречающиеся в банках деревьев. Его также можно определить как банк лингвистических деревьев, он был создан в Пенсильванском университете, отсюда и название Penn Treebank.
  • BNC: Британский национальный корпус (BNC) – один из крупнейших английских корпусов, состоящий из более чем 100 миллионов слов письменных и устных текстов из самых разных источников. Этот корпус представляет собой репрезентативный образец письменного и устного британского английского языка конца 20 века.
  • АНК: Американский национальный корпус (АНК) – это большой корпус текстов на американском английском, который содержит более 22 миллионов слов как устных, так и письменных образцов текстов с 1990 года. Он включает данные из самых разных источников, включая новые источники, такие как электронная почта, твиты и веб-информация, отсутствующая в BNC.
  • COCA: Корпус современного американского варианта английского языка (COCA) — крупнейший корпус текстов на американском английском, состоящий из более чем 450 миллионов слов, включая расшифровки устных и письменных текстов из различных категорий и источников.
  • Корпус N-грамм Google.Корпус Google N-грамм состоит из более чем триллиона слов из различных источников, включая книги, веб-страницы и т. д. Корпус состоит из n-грамм файлов, до 5-грамм для каждого языка.
  • Корпус Reuters: этот корпус представляет собой набор новостных статей и историй Reuters, выпущенных в 2000 году специально для проведения исследований в области НЛП и машинного обучения.
  • Интернет, чат, электронная почта, твиты. Это совершенно новые формы текстовых корпусов, которые стали популярны с появлением социальных сетей. Их можно получить в Интернете из различных источников, включая Twitter, Facebook, чаты и т. д.

Это дает нам представление о некоторых наиболее популярных текстовых корпусах, а также о том, как они развивались с течением времени.