Эта статья является частью серии Academic Alibaba и взята из статьи Шаошен Цао, Вэй Лу, Цзюнь Чжоу, озаглавленной Изучение вложения китайских слов с помощью штриховой н-граммной информации. и Сяолун Ли, принятые на конференции Ассоциации по развитию искусственного интеллекта 2018 года. Полную версию статьи можно прочитать здесь.

В области обработки естественного языка (НЛП) в последнее время все больше внимания уделяется изучению представления слов. Поиск способа ИИ анализировать текст и определять семантически связанные слова имеет огромный потенциал для последующих приложений, но это особенно сложно для обширных и сложных скриптов, таких как китайский.

Печально сложная система письма

Китайский - древний язык, завораживающий людей во всем мире, и миллионы людей изучают его как второй или третий язык. Известно, что китайский и его разновидности, включая мандаринский и кантонский, являются сложными для освоения, в них используются логографические шрифты, которые сильно отличаются от алфавитных шрифтов, таких как английский. Например, в то время как буквы в алфавитном сценарии представляют язык на фонетическом уровне, китайские иероглифы представляют язык на семантическом уровне - однако не на уровне слова, а на уровне морфемы.

Техническая группа Alibaba в сотрудничестве с Сингапурским университетом технологий и дизайна предложила модель, называемую штриховыми n -граммами, для захвата и кодирования китайской семантики. «Штрих» в n -граммах указывает на то, что система использует китайские правила рукописного ввода для определения семантически значимых графических элементов в слове.

В отличие от символов, радикалов и компонентов, штрихи не являются семантическими элементами сценария. Однако в n -граммах штрихов используются комбинации штрихов и повторяющиеся последовательности штрихов между словами для определения семантических структур в словах.

Поиск смысла в структурах вложенных слов

Чтобы объяснить, почему штриховые n -граммы более эффективны, чем другие подходы, давайте сначала рассмотрим недостатки этих других подходов (анализ по характеру, радикалу и компоненту).

Символы

Китайские иероглифы являются полезной точкой отсчета для отслеживания истории и развития китайского языка и письменности, но они мало полезны для указания того, какие слова семантически связаны. Проще говоря, в китайском языке гораздо больше слов, имеющих общую семантическую информацию, чем тех, которые имеют один или несколько символов.

Например, китайские слова «древесина» и «лес» имеют общие семантические корни, но анализ на уровне символов не показывает, что это так. Это делает рассмотрение только информации на уровне персонажа ошибочным и поверхностным.

Между тем, для любого, кто знаком с китайской письменностью, сразу становится очевидным, что слова «лес» и «лес» связаны, даже если они не знают этих слов. Это связано с тем, что символы в обоих словах имеют общий графический элемент - дерево «木».

Радикалы

Радикалы выдержали испытание временем с точки зрения предоставления средств организации китайских иероглифов в словарях, а в некоторых случаях они действительно предоставляют полезную семантическую информацию - первыми примерами являются древесина и лес. Однако во многих случаях радикалы совершенно неспособны идентифицировать семантическую информацию в слове.

Например, радикал в иероглифе мудрости «智» - это солнце «日». Даже после изучения исторического обоснования этого радикала трудно утверждать достоверную семантическую связь между солнцем и мудростью.

Компоненты

К сожалению, выход за рамки радикалов и поиск других компонентов, определяемых как фундаментальные графические элементы того же уровня сложности, что и радикалы, в конечном итоге является напрасной тратой усилий. Хотя пример древесины и леса предполагает, что компонентный анализ должен дать положительные результаты, это не всегда верно. Если вернуться к приведенному выше примеру, символ мудрости содержит дополнительные базовые компоненты - стрелку «失» и рот «口» в дополнение к компоненту солнца «日», используемому в качестве радикала.

Тем не менее, любой, кто знаком с китайским письмом, может мгновенно признать, что слова «мудрость» и «знание» семантически связаны, несмотря на то, что в них нет общих символов, радикалов или «компонентов» в определенном смысле.

Символ знания «知» появляется как графическая структура подслова в иероглифе мудрости «智». Однако, поскольку он не является символом, радикалом или компонентом, ни один из традиционных способов классификации китайских иероглифов не может создать систему, которая идентифицирует его как общий элемент. Между тем, попытки идентифицировать и кодифицировать все графические элементы между уровнями компонентов и символов, которые передают семантическую информацию, были бы монументальным занятием вручную.

Так каким же образом штриховые n -граммы обеспечивают минималистичное решение, которое по-прежнему обеспечивает систематическое определение и хранение этой информации?

Порядок китайского инсульта и n-граммы

Штрих n -граммы основаны на том факте, что рукописные китайские иероглифы всегда представляют собой комбинацию пяти основных типов штрихов, и что символы всегда пишутся сверху вниз, слева направо, по одному компоненту за раз.

Вернемся к примеру со знанием мудрости: это означает, что в обоих случаях в одной и той же последовательности должна быть записана структура подслова «знание». Присваивая каждому типу штрихов номер и затем представляя комбинацию штрихов с числовой последовательностью, система может идентифицировать одну и ту же последовательность, встречающуюся в разных контекстах. Вот почему н-граммы штрихов способны улавливать морфологическую и семантическую информацию, которая является общей для слов, даже если штрих сам по себе не передает семантической информации.

Преобразование слов в н-граммы

Китайские слова преобразуются в н-граммы штрихов с помощью следующего процесса:

1. Слова (состоящие из одного или нескольких китайских иероглифов) делятся на составляющие их символы.

2. Последовательность штрихов для каждого символа извлекается и объединяется.

3. Последовательности штрихов обозначаются идентификаторами штрихов.

4. Для создания n-грамм штрихов накладывается скользящее окно размера n.

Как показано в приведенном выше примере для слова «взрослый» «大人», идентификатор штриха составляет 5 грамм, который фиксирует последовательность штрихов для всего слова, а 3-граммовые и 4-граммовые n -граммы фиксируют последовательности штрихов для графических компонентов подслова.

Использование штриховых н-граммов для изучения вложения слов

Встраивание слов, также известное как векторы слов, помогает компьютерам понимать слова. Модель, впервые представленная Google, отображает семантическое значение слова в векторное пространство низкой размерности. С помощью этого метода синонимы идентифицируются по мере расстояния между двумя соответствующими векторами.

Чтобы включить штриховые n -граммы в функцию изучения встраивания слов, исследовательская группа специально разработала простую, но эффективную математическую модель, которая помогает компьютерам изучать вложения слов в китайском стиле. Новый алгоритм, разработанный исследовательской группой, превзошел word2vec Google, Stanford GloVe и Tsinghua CWE среди других в общедоступных тестовых наборах данных и дал лучшие результаты для нескольких задач Alibaba и Ant Financial.

Чтобы узнать больше о том, как команда применила n-граммы штрихов для изучения встраивания слов, прочитайте полный текст статьи здесь.

Alibaba Tech

Подробная информация о новейших технологиях Alibaba из первых рук → Выполните поиск « Alibaba Tech » на Facebook