Математическое введение в языковую модель N-Gram

НЛП - это широкое поле. Обработка естественного языка - это процесс или способность компьютера узнать больше о человеческом языке, чтобы он мог обрабатываться за пределами человеческих возможностей. Мы можем обучать модели таким образом, чтобы они могли предсказывать утверждения или обобщать самый большой текстовый блок. Это интересная область для исследователей, которые хотят лучше понимать язык или сделать автоматический перевод и автопечать более эффективными.

Языковая модель

Модель, которая присваивает вероятности последовательности слов, называется «языковой моделью».

Сказать простым языком

Если у меня есть частичное предложение, например

Я ем ….

Теперь есть выбор слов, таких как пицца, бургер, змея.

Теперь каждое слово имеет некоторую вероятность с предыдущим словом. Каждое слово соответствует предыдущему глаголу, но мы видим, что змея - это другое слово. Но все же есть вероятность с нашим частичным утверждением. Таким образом, основная вероятность для предложения должна быть

вероятность (утверждение(я ем гамбургер или пиццу))=бургер или пиццу|я ем

Эта вероятность была бы выше, чем змея или любое другое слово. В основном языковые модели предсказывают последовательный термин с наивысшим значением вероятности. Модели обычно используют функцию argsmax, чтобы получить наибольшее значение вероятности.

Модели N-грамм

Термин N-грамма встречается в моделях НЛП несколько раз. Термин N-грамма появляется, когда количество слов, используемых в модели, например

Нави Мумбаи -2 грамма

Она съела гамбургер -3 грамма

Он стреляет уткой-4 грамма

Давайте посмотрим на математическую функцию

рассмотрим предложение w1,w2,…..,wn

где n - количество слов в предложении

Применив то же правило к нашим словам, мы получим такой окончательный результат.

Тем не менее последний член стал слишком сложным для математических расчетов в большой модели.

У нас есть решение для этого, называемое «предположение Маркова».

Марковское предположение — это предположение о том, что вероятность слова зависит только от предыдущего слова.

Проблема с вышеуказанным методом заключается в том, что вероятностные веса нормализованы.

Решение для этого простое: добавьте фальшивый начальный и конечный токен.

Как мы обучаем языковую модель?

Модель логарифмического правдоподобия

Мы вычисляем вероятность слова y со словом x, затем вычисляем c(xy), а затем нормализуем его.

Недоумение

мы не можем использовать необработанную вероятность при обучении моделей. Мы используем конкретный ее вариант. Самое главное, что низкий уровень недоумения — это всегда хорошо.

Опять же, одна проблема заключается в том, что если произошло слово вне словарного запаса, то вероятность для этого слова равна 0, а недоумение становится бесконечным. :)

Решение

Вот где ‹unk› токен пригодится
заранее пополнить словарный запас.
Сглаживание IMP.

Я расскажу о сглаживании в следующем блоге.

Не стесняйтесь обращаться ко мне по адресу [email protected]

Математическое введение в языковую модель N-Gram

Вопросы по теме