Публикации по теме 'lemmatization'
Классификация токсичных комментариев с использованием различных алгоритмов машинного обучения
Введение
Большая часть онлайн-комментариев, присутствующих в общедоступных доменах, обычно носит конструктивный характер, однако значительная их часть носит токсичный характер. Это сопряжено с огромными опасностями, поскольку онлайн-тексты с высокой степенью токсичности могут вызывать личные нападки, онлайн-домогательства и запугивание. Это спровоцировало исследовательское сообщество в последние несколько лет, поэтому было предпринято несколько попыток определить эффективную модель для..
Обработка языков с помощью Python
Как вы знаете, обработка естественного языка играет большую роль в современных технологиях. Язык может быть в виде списка отдельных слов, предложений, нескольких абзацев со специальными символами. Из-за сложности естественного языка нам необходимо выполнить некоторые задачи языковой обработки, прежде чем они будут применены к приложениям. Здесь я обсуждаю следующие темы, касающиеся языковой обработки.
Токенизация текста Остановить удаление слов Стемминг Лемматизация POS-теги..
Лемматизация
Лемматизация
Лемматизация в лингвистике - это процесс объединения изменяемых форм слова, чтобы их можно было анализировать как единый элемент, идентифицируемый леммой слова или словарной формой.
например, бег, бег, бег и бег - это формы одного и того же набора слов, которые связаны через перегиб, с бегом в качестве леммы.
Если вы ищете исходный код, посетите мой Github Repo , где вы также можете найти другие интересные вещи.
В чем разница между стеммингом и лемматизацией?
В..
Фонетическое хэширование и Soundex в Python
Фонетическое хэширование и Soundex в Python
Приведение слова к его базовой форме с помощью определения основы и лемматизации является частью метода, называемого канонизацией. Стемминг пытается привести слово к его корневой форме. Лемматизация пытается свести слово к его лемме. Корень и лемма суть не что иное, как базовые формы флективных слов. просто метод у обоих разный.
Есть некоторые случаи, которые не могут быть обработаны ни стеммингом, ни лемматизацией. Вам нужен..
Вопросы по теме 'lemmatization'
НЛП: лемматизация с помощью lemmaGen c ++
Я улучшаю чат-бота и хочу найти лемму слов из входного предложения. Чат-бот написан на C ++, и я нашел бесплатный инструмент лемматизации с открытым исходным кодом под названием LemmaGen. Я загрузил версию 2.2 для C ++, но в ней нет документации о...
1283 просмотров
schedule
05.09.2023
лемматизация wordnet и теги pos в python
Я хотел использовать лемматизатор wordnet в python, и я узнал, что тег pos по умолчанию - NOUN и что он не выводит правильную лемму для глагола, если тег pos явно не указан как VERB.
У меня вопрос: какой выстрел лучше всего подходит для точного...
73491 просмотров
schedule
15.05.2023
Как удалить множественное число в Lucene.NET?
Я пытаюсь извлечь некоторые ключевые слова из текста. Это работает отлично, но мне нужно удалить множественное число.
Поскольку я уже использую Lucene для целей поиска, я пытаюсь использовать его для извлечения ключевых слов из проиндексированных...
1542 просмотров
schedule
06.02.2024
Вывод неструктурированного текста в NLTK
Я попробовал стеммер регулярных выражений, но получил сотни несвязанных токенов. Меня просто интересует ствол "play". Вот код, с которым я работаю:
import nltk
from nltk.book import *
f = open('tupac_original.txt', 'rU')
text = f.read()
text1 =...
7485 просмотров
schedule
19.01.2024
Как получить форму множественного числа из формы единственного числа?
Я хочу получить множественное число от данного существительного. Я пробовал JAVA INFLECTOR. Но он имеет очень низкую точность для существительных, не соответствующих обычным правилам.
Примеры из JAVA INFLECTOR:
папараццо -> папарацци...
1718 просмотров
schedule
13.09.2022
Python NLTK Лемматизация слова «дальше» с помощью wordnet
Я работаю над лемматизатором с использованием Python, NLTK и WordNetLemmatizer. Вот случайный текст, который выводит то, что я ожидал
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet
lem = WordNetLemmatizer()...
4970 просмотров
schedule
12.10.2022
Лемматизация NoSuchMethodError [закрыта]
у меня есть исключение в коде лемматизации в java с использованием Netbeans 8.0 (которое существует в следующей ссылке ), когда он помещен в моем проекте, который состоит из многих классов. Исключением является
Exception in thread "main"...
170 просмотров
schedule
14.06.2022
Ошибка R при лемматизации корпуса документа с помощью wordnet
Я пытаюсь лемматизировать корпус документа в R с помощью библиотеки wordnet. Это код:
corpus.documents <- Corpus(VectorSource(vector.documents))
corpus.documents <- tm_map(corpus.documents removePunctuation)
library(wordnet)...
1279 просмотров
schedule
08.07.2023
Ручная пометка слов с помощью Stanford CorNLP
У меня есть ресурс, где я точно знаю типы слов. я должен лемматизировать их, но для правильных результатов я должен вручную пометить их. я не смог найти никакого кода для ручной пометки слов. я использую следующий код, но он возвращает неверный...
314 просмотров
schedule
13.09.2022
Стэнфордская лемматизация NLP не может обрабатывать слова с -ing
Я экспериментировал с набором инструментов Stanford NLP и его возможностями лемматизации. Я удивлен, как он лемматизирует некоторые слова. Например:
depressing -> depressing
depressed -> depressed
depresses -> depress
Он не может...
1035 просмотров
schedule
09.12.2023
Как получить все варианты лексемы в Java?
Я ищу способ получить все варианты лексемы определенного слова.
Пример: бежит -> (бежит, бежит, бежит, бежит…)
Я попробовал Stanford NLP в соответствии с этот пост . Однако аннотатор леммы извлекает только лемму (запуск -> запуск), а не полный...
270 просмотров
schedule
03.10.2022
Английский Lemmatizer без словаря для JAVA?
Я ищу слово в поиске на основе lucene, и я хочу преобразовать строку, например, «есть», «есть» в «есть» в java. Я искал и нашел лемматизацию в качестве решения, но все инструменты английского лемматизатора, с которыми я сталкивался, используют список...
279 просмотров
schedule
12.06.2023
AWK - формирование грамматических форм
У меня есть два файла, разделенных табуляцией. В одном содержатся леммы и основы, а в другом то, что нужно для образования грамматических форм.
Файл (леммы и основы):
Lemma Stem Pos
ablakzár ablakz noun
adminisztrátorlány...
122 просмотров
schedule
07.05.2023
Лемма, извлеченная в синтаксическом анализаторе дерева в Стэнфорде
Я использую синтаксический анализатор Stanford для своей реализации. Я хотел бы использовать дерево предложения для извлечения различной информации.
Я использовал код в: Получить определенные узлы из дерева разбора :
У меня есть предложение...
324 просмотров
schedule
30.03.2023
Импорт Stanford nlp Intellij
У меня проблемы с использованием Stanford Lemmatizer. Поскольку я использую Intellij IDE, я пытаюсь импортировать его через Windows зависимостей, но таким образом я не могу получить доступ ко всему классу.
Есть ли способ правильно импортировать...
2669 просмотров
schedule
19.02.2024
Scala Преобразовать [Seq[string] в [String]? (TF-IDF после лемматизации)
Я пытаюсь изучить scala и, в частности, анализ текста (лемматизация, матрица TF-IDF и LSA).
У меня есть несколько текстов, которые я хочу лемматизировать и сделать классификацию (LSA). Я использую искру на cloudera.
Поэтому я использовал...
204 просмотров
schedule
16.06.2023
Как TreeTagger получает лемму слова?
Я использую TreeTagger, чтобы получить леммы слов на испанском языке, но я заметил, что слишком много слов не трансформируются должным образом. Я хотел бы знать, как работает эта операция, выполняется ли она с помощью таких методов, как деревья...
241 просмотров
schedule
04.09.2022
Перебор лемм в NLTK Wordnet
У вас есть скрипт для получения итальянских синонимов из Wordnet, например:
from nltk.corpus import wordnet as wn
it_lemmas = wn.lemmas("problema", lang="ita")
hypernyms = it_lemmas[0].synset().hypernyms()...
405 просмотров
schedule
12.11.2022
Лемматизация данных, извлеченных из Интернета
Предположим, у меня есть текстовый документ, например:
document = '<p> I am a sentence. I am another sentence <p> I am a third sentence.'
(или более сложный текстовый пример:
document = '<p>Forde Education are looking to...
117 просмотров
schedule
01.03.2022
Как лемматизировать корпус с определенным словарем в R?»
Я пытаюсь выполнить lemmatization в корпусе, используя функцию lemmatize_strings() в качестве аргумента для tm_map() пакета tm .
Но я хочу использовать свой собственный словарь ("lexico" - первый столбец с полной формой слова в нижнем...
1216 просмотров
schedule
07.06.2022