Может ли Natural Language Processing вытеснить исчезающие и незападные языки из науки?

Обработка естественного языка резко выросла за последнее десятилетие. С ростом вычислительных мощностей и доступности данных рынок интеллектуального анализа человеческой речи стал сильным.

Однако по мере распространения НЛП мы должны уделять пристальное внимание пространству, в которое оно распространяется. Создаем ли мы цикл обратной связи англоязычных стран с данными, которые мы собираем, и инструментами, которые мы используем для их анализа?

Неанглийские языковые особенности усложняют НЛП, выполняемое с помощью инструментов, разработанных англоязычными языками.

Техники НЛП, по большому счету, были изобретены носителями английского языка. Английский имеет тенденцию к тому, что лингвисты называют аналитическим языком. Это означает, что в нем мало морфем на слово и отсутствуют грамматические маркеры, которые используются в других языках для таких вещей, как время, личность, настроение и аспект, которые выражаются через порядок слов и ассоциации с другими словами.

Например, в английском языке следующие предложения не эквивалентны:

Клаус ест салат.

Салат ест Клаус.

Но на немецком языке (фузионный язык) они оба будут означать «Клаус ест салат», потому что фузионная морфология, указывающая на регистр, делает порядок слов менее строгим:

Клаус ист ден Салат.

Ден Салат - это Клаус.

Еще больше значений для одного слова может встречаться в агглютинативных и полисинтетических языках:

Но большинство библиотек NLP оптимизированы для токенизации, лемматизации и маркировки частей речи на английском и европейских языках, подобных англоязычным.

Небольшие объемы данных, с которыми трудно работать, увековечивают предвзятость.

Несмотря на то, что ресурсы расширяются, остается меньше вариантов для других языков, кроме английского. Частично эта загадка проистекает из предвзятого отношения к применению НЛП к языкам с наибольшим объемом данных. Английский по-прежнему является языком Интернета, и поэтому он - наряду с языками других богатых, связанных стран - чрезмерно представлен в наборах данных. Без достаточного количества данных использование традиционных методов многомерного НЛП на малых языках не будет эффективным.

Поскольку NLP часто используется для получения ценных сведений о рынке и стимулирования инвестиций, этот недостаток внимания может привести к самовоспроизводящемуся циклу, в котором языки с низким уровнем ресурсов продолжают получать меньше услуг и, таким образом, генерировать меньше данных, чем более обслуживаемые. единицы. В конечном итоге они могут потерять говорящих, и мир потеряет языковое разнообразие.

Тем не менее, как мы знаем на уровне проекта, «[g] reat следует проявлять осторожность, чтобы не удалять или изменять значения поспешно, особенно если размер выборки невелик». Макс Кун и Кьелл Джонсон, Прикладное прогнозное моделирование 33 (5-е изд., 2016 г.). «Кроме того, отдаленные данные могут указывать на особую часть исследуемой популяции, которая только начинает отбираться в выборку». Там же. 34. Этот совет не менее верен с точки зрения макроуровня кросс-лингвистической науки о данных. Для исторически малоизученных языков это зарождающееся исследование может иметь огромное значение - для интеллектуалов, которые его изучают, предприятий, которые могут извлечь выгоду из этого понимания, и сообществ, которым выгодно, чтобы их слова были признаны и изучены.

Устранение разрыва требует особого внимания.

Пробел необходимо сначала сократить на этапе сбора данных. Некоторые практики НЛП начали внедрять машинное обучение намного раньше в процессе лингвистических исследований, чтобы повысить шансы на то, что корпус можно будет использовать - и использовать. Обеспечение взаимодействия полевых лингвистов и специалистов по данным для создания взаимовыгодных машиночитаемых корпусов является важным соображением.

Другие методы могут стремиться максимально использовать разреженный набор данных путем реализации методов, которые не требуют создания таких многомерных объектов. Полу- и неконтролируемые техники могут быть использованы, чтобы обойти феномен Хьюза. Чтобы адаптировать существующие модели к совершенно новым структурам, требуются не только лингвистические знания, но и творческое мышление. В этом сценарии выгодны нейронные техники. Одна группа уже использовала глубокое обучение для возрождения Seneca. Другие следуют их примеру с помощью Google.

Машинное обучение дает нам беспрецедентную возможность сохранять и изучать недостаточно изученные языки, которых никогда не было ни у одного поколения. Те, кто принимает вызов, обогатят не только себя, но и коллективное понимание нашего общего лингвистического наследия.