Публикации по теме 'lemmatization'


Классификация токсичных комментариев с использованием различных алгоритмов машинного обучения
Введение Большая часть онлайн-комментариев, присутствующих в общедоступных доменах, обычно носит конструктивный характер, однако значительная их часть носит токсичный характер. Это сопряжено с огромными опасностями, поскольку онлайн-тексты с высокой степенью токсичности могут вызывать личные нападки, онлайн-домогательства и запугивание. Это спровоцировало исследовательское сообщество в последние несколько лет, поэтому было предпринято несколько попыток определить эффективную модель для..

Обработка языков с помощью Python
Как вы знаете, обработка естественного языка играет большую роль в современных технологиях. Язык может быть в виде списка отдельных слов, предложений, нескольких абзацев со специальными символами. Из-за сложности естественного языка нам необходимо выполнить некоторые задачи языковой обработки, прежде чем они будут применены к приложениям. Здесь я обсуждаю следующие темы, касающиеся языковой обработки. Токенизация текста Остановить удаление слов Стемминг Лемматизация POS-теги..

Лемматизация
Лемматизация Лемматизация в лингвистике - это процесс объединения изменяемых форм слова, чтобы их можно было анализировать как единый элемент, идентифицируемый леммой слова или словарной формой. например, бег, бег, бег и бег - это формы одного и того же набора слов, которые связаны через перегиб, с бегом в качестве леммы. Если вы ищете исходный код, посетите мой Github Repo , где вы также можете найти другие интересные вещи. В чем разница между стеммингом и лемматизацией? В..

Фонетическое хэширование и Soundex в Python
Фонетическое хэширование и Soundex в Python Приведение слова к его базовой форме с помощью определения основы и лемматизации является частью метода, называемого канонизацией. Стемминг пытается привести слово к его корневой форме. Лемматизация пытается свести слово к его лемме. Корень и лемма суть не что иное, как базовые формы флективных слов. просто метод у обоих разный. Есть некоторые случаи, которые не могут быть обработаны ни стеммингом, ни лемматизацией. Вам нужен..

Вопросы по теме 'lemmatization'

НЛП: лемматизация с помощью lemmaGen c ++
Я улучшаю чат-бота и хочу найти лемму слов из входного предложения. Чат-бот написан на C ++, и я нашел бесплатный инструмент лемматизации с открытым исходным кодом под названием LemmaGen. Я загрузил версию 2.2 для C ++, но в ней нет документации о...
1283 просмотров
schedule 05.09.2023

лемматизация wordnet и теги pos в python
Я хотел использовать лемматизатор wordnet в python, и я узнал, что тег pos по умолчанию - NOUN и что он не выводит правильную лемму для глагола, если тег pos явно не указан как VERB. У меня вопрос: какой выстрел лучше всего подходит для точного...
73491 просмотров
schedule 15.05.2023

Как удалить множественное число в Lucene.NET?
Я пытаюсь извлечь некоторые ключевые слова из текста. Это работает отлично, но мне нужно удалить множественное число. Поскольку я уже использую Lucene для целей поиска, я пытаюсь использовать его для извлечения ключевых слов из проиндексированных...
1542 просмотров
schedule 06.02.2024

Вывод неструктурированного текста в NLTK
Я попробовал стеммер регулярных выражений, но получил сотни несвязанных токенов. Меня просто интересует ствол "play". Вот код, с которым я работаю: import nltk from nltk.book import * f = open('tupac_original.txt', 'rU') text = f.read() text1 =...
7485 просмотров

Как получить форму множественного числа из формы единственного числа?
Я хочу получить множественное число от данного существительного. Я пробовал JAVA INFLECTOR. Но он имеет очень низкую точность для существительных, не соответствующих обычным правилам. Примеры из JAVA INFLECTOR: папараццо -> папарацци...
1718 просмотров

Python NLTK Лемматизация слова «дальше» с помощью wordnet
Я работаю над лемматизатором с использованием Python, NLTK и WordNetLemmatizer. Вот случайный текст, который выводит то, что я ожидал from nltk.stem import WordNetLemmatizer from nltk.corpus import wordnet lem = WordNetLemmatizer()...
4970 просмотров
schedule 12.10.2022

Лемматизация NoSuchMethodError [закрыта]
у меня есть исключение в коде лемматизации в java с использованием Netbeans 8.0 (которое существует в следующей ссылке ), когда он помещен в моем проекте, который состоит из многих классов. Исключением является Exception in thread "main"...
170 просмотров
schedule 14.06.2022

Ошибка R при лемматизации корпуса документа с помощью wordnet
Я пытаюсь лемматизировать корпус документа в R с помощью библиотеки wordnet. Это код: corpus.documents <- Corpus(VectorSource(vector.documents)) corpus.documents <- tm_map(corpus.documents removePunctuation) library(wordnet)...
1279 просмотров
schedule 08.07.2023

Ручная пометка слов с помощью Stanford CorNLP
У меня есть ресурс, где я точно знаю типы слов. я должен лемматизировать их, но для правильных результатов я должен вручную пометить их. я не смог найти никакого кода для ручной пометки слов. я использую следующий код, но он возвращает неверный...
314 просмотров
schedule 13.09.2022

Стэнфордская лемматизация NLP не может обрабатывать слова с -ing
Я экспериментировал с набором инструментов Stanford NLP и его возможностями лемматизации. Я удивлен, как он лемматизирует некоторые слова. Например: depressing -> depressing depressed -> depressed depresses -> depress Он не может...
1035 просмотров

Как получить все варианты лексемы в Java?
Я ищу способ получить все варианты лексемы определенного слова. Пример: бежит -> (бежит, бежит, бежит, бежит…) Я попробовал Stanford NLP в соответствии с этот пост . Однако аннотатор леммы извлекает только лемму (запуск -> запуск), а не полный...
270 просмотров
schedule 03.10.2022

Английский Lemmatizer без словаря для JAVA?
Я ищу слово в поиске на основе lucene, и я хочу преобразовать строку, например, «есть», «есть» в «есть» в java. Я искал и нашел лемматизацию в качестве решения, но все инструменты английского лемматизатора, с которыми я сталкивался, используют список...
279 просмотров
schedule 12.06.2023

AWK - формирование грамматических форм
У меня есть два файла, разделенных табуляцией. В одном содержатся леммы и основы, а в другом то, что нужно для образования грамматических форм. Файл (леммы и основы): Lemma Stem Pos ablakzár ablakz noun adminisztrátorlány...
122 просмотров
schedule 07.05.2023

Лемма, извлеченная в синтаксическом анализаторе дерева в Стэнфорде
Я использую синтаксический анализатор Stanford для своей реализации. Я хотел бы использовать дерево предложения для извлечения различной информации. Я использовал код в: Получить определенные узлы из дерева разбора : У меня есть предложение...
324 просмотров

Импорт Stanford nlp Intellij
У меня проблемы с использованием Stanford Lemmatizer. Поскольку я использую Intellij IDE, я пытаюсь импортировать его через Windows зависимостей, но таким образом я не могу получить доступ ко всему классу. Есть ли способ правильно импортировать...
2669 просмотров

Scala Преобразовать [Seq[string] в [String]? (TF-IDF после лемматизации)
Я пытаюсь изучить scala и, в частности, анализ текста (лемматизация, матрица TF-IDF и LSA). У меня есть несколько текстов, которые я хочу лемматизировать и сделать классификацию (LSA). Я использую искру на cloudera. Поэтому я использовал...
204 просмотров
schedule 16.06.2023

Как TreeTagger получает лемму слова?
Я использую TreeTagger, чтобы получить леммы слов на испанском языке, но я заметил, что слишком много слов не трансформируются должным образом. Я хотел бы знать, как работает эта операция, выполняется ли она с помощью таких методов, как деревья...
241 просмотров
schedule 04.09.2022

Перебор лемм в NLTK Wordnet
У вас есть скрипт для получения итальянских синонимов из Wordnet, например: from nltk.corpus import wordnet as wn it_lemmas = wn.lemmas("problema", lang="ita") hypernyms = it_lemmas[0].synset().hypernyms()...
405 просмотров
schedule 12.11.2022

Лемматизация данных, извлеченных из Интернета
Предположим, у меня есть текстовый документ, например: document = '<p> I am a sentence. I am another sentence <p> I am a third sentence.' (или более сложный текстовый пример: document = '<p>Forde Education are looking to...
117 просмотров

Как лемматизировать корпус с определенным словарем в R?»
Я пытаюсь выполнить lemmatization в корпусе, используя функцию lemmatize_strings() в качестве аргумента для tm_map() пакета tm . Но я хочу использовать свой собственный словарь ("lexico" - первый столбец с полной формой слова в нижнем...
1216 просмотров
schedule 07.06.2022