Публикации по тегам lemmatization

Публикации по теме 'lemmatization'

Классификация токсичных комментариев с использованием различных алгоритмов машинного обучения

Введение Большая часть онлайн-комментариев, присутствующих в общедоступных доменах, обычно носит конструктивный характер, однако значительная их часть носит токсичный характер. Это сопряжено с огромными опасностями, поскольку онлайн-тексты с высокой степенью токсичности могут вызывать личные нападки, онлайн-домогательства и запугивание. Это спровоцировало исследовательское сообщество в последние несколько лет, поэтому было предпринято несколько попыток определить эффективную модель для..

Обработка языков с помощью Python

Как вы знаете, обработка естественного языка играет большую роль в современных технологиях. Язык может быть в виде списка отдельных слов, предложений, нескольких абзацев со специальными символами. Из-за сложности естественного языка нам необходимо выполнить некоторые задачи языковой обработки, прежде чем они будут применены к приложениям. Здесь я обсуждаю следующие темы, касающиеся языковой обработки. Токенизация текста Остановить удаление слов Стемминг Лемматизация POS-теги..

Лемматизация

Лемматизация Лемматизация в лингвистике - это процесс объединения изменяемых форм слова, чтобы их можно было анализировать как единый элемент, идентифицируемый леммой слова или словарной формой. например, бег, бег, бег и бег - это формы одного и того же набора слов, которые связаны через перегиб, с бегом в качестве леммы. Если вы ищете исходный код, посетите мой Github Repo , где вы также можете найти другие интересные вещи. В чем разница между стеммингом и лемматизацией? В..

Фонетическое хэширование и Soundex в Python

Фонетическое хэширование и Soundex в Python Приведение слова к его базовой форме с помощью определения основы и лемматизации является частью метода, называемого канонизацией. Стемминг пытается привести слово к его корневой форме. Лемматизация пытается свести слово к его лемме. Корень и лемма суть не что иное, как базовые формы флективных слов. просто метод у обоих разный. Есть некоторые случаи, которые не могут быть обработаны ни стеммингом, ни лемматизацией. Вам нужен..

Вопросы по теме 'lemmatization'

НЛП: лемматизация с помощью lemmaGen c ++

Я улучшаю чат-бота и хочу найти лемму слов из входного предложения. Чат-бот написан на C ++, и я нашел бесплатный инструмент лемматизации с открытым исходным кодом под названием LemmaGen. Я загрузил версию 2.2 для C ++, но в ней нет документации о...

1283 просмотров

c++ nlp lemmatization

05.09.2023

лемматизация wordnet и теги pos в python

Я хотел использовать лемматизатор wordnet в python, и я узнал, что тег pos по умолчанию - NOUN и что он не выводит правильную лемму для глагола, если тег pos явно не указан как VERB. У меня вопрос: какой выстрел лучше всего подходит для точного...

73491 просмотров

python nltk wordnet lemmatization

15.05.2023

Как удалить множественное число в Lucene.NET?

Я пытаюсь извлечь некоторые ключевые слова из текста. Это работает отлично, но мне нужно удалить множественное число. Поскольку я уже использую Lucene для целей поиска, я пытаюсь использовать его для извлечения ключевых слов из проиндексированных...

1542 просмотров

.net c# lemmatization lucene.net stemming

06.02.2024

Вывод неструктурированного текста в NLTK

Я попробовал стеммер регулярных выражений, но получил сотни несвязанных токенов. Меня просто интересует ствол "play". Вот код, с которым я работаю: import nltk from nltk.book import * f = open('tupac_original.txt', 'rU') text = f.read() text1 =...

7485 просмотров

tokenize nltk lemmatization text-analysis

19.01.2024

Как получить форму множественного числа из формы единственного числа?

Я хочу получить множественное число от данного существительного. Я пробовал JAVA INFLECTOR. Но он имеет очень низкую точность для существительных, не соответствующих обычным правилам. Примеры из JAVA INFLECTOR: папараццо -> папарацци...

1718 просмотров

java nlp stanford-nlp lemmatization inflector

13.09.2022

Python NLTK Лемматизация слова «дальше» с помощью wordnet

Я работаю над лемматизатором с использованием Python, NLTK и WordNetLemmatizer. Вот случайный текст, который выводит то, что я ожидал from nltk.stem import WordNetLemmatizer from nltk.corpus import wordnet lem = WordNetLemmatizer()...

4970 просмотров

python nltk wordnet lemmatization

12.10.2022

Лемматизация NoSuchMethodError [закрыта]

у меня есть исключение в коде лемматизации в java с использованием Netbeans 8.0 (которое существует в следующей ссылке ), когда он помещен в моем проекте, который состоит из многих классов. Исключением является Exception in thread "main"...

170 просмотров

java lemmatization

14.06.2022

Ошибка R при лемматизации корпуса документа с помощью wordnet

Я пытаюсь лемматизировать корпус документа в R с помощью библиотеки wordnet. Это код: corpus.documents <- Corpus(VectorSource(vector.documents)) corpus.documents <- tm_map(corpus.documents removePunctuation) library(wordnet)...

1279 просмотров

r wordnet lemmatization

08.07.2023

Ручная пометка слов с помощью Stanford CorNLP

У меня есть ресурс, где я точно знаю типы слов. я должен лемматизировать их, но для правильных результатов я должен вручную пометить их. я не смог найти никакого кода для ручной пометки слов. я использую следующий код, но он возвращает неверный...

314 просмотров

stanford-nlp lemmatization java-7

13.09.2022

Стэнфордская лемматизация NLP не может обрабатывать слова с -ing

Я экспериментировал с набором инструментов Stanford NLP и его возможностями лемматизации. Я удивлен, как он лемматизирует некоторые слова. Например: depressing -> depressing depressed -> depressed depresses -> depress Он не может...

1035 просмотров

java nlp stanford-nlp lemmatization stemming

09.12.2023

Как получить все варианты лексемы в Java?

Я ищу способ получить все варианты лексемы определенного слова. Пример: бежит -> (бежит, бежит, бежит, бежит…) Я попробовал Stanford NLP в соответствии с этот пост . Однако аннотатор леммы извлекает только лемму (запуск -> запуск), а не полный...

270 просмотров

java nlp stanford-nlp lemmatization

03.10.2022

Английский Lemmatizer без словаря для JAVA?

Я ищу слово в поиске на основе lucene, и я хочу преобразовать строку, например, «есть», «есть» в «есть» в java. Я искал и нашел лемматизацию в качестве решения, но все инструменты английского лемматизатора, с которыми я сталкивался, используют список...

279 просмотров

java lucene lemmatization

12.06.2023

AWK - формирование грамматических форм

У меня есть два файла, разделенных табуляцией. В одном содержатся леммы и основы, а в другом то, что нужно для образования грамматических форм. Файл (леммы и основы): Lemma Stem Pos ablakzár ablakz noun adminisztrátorlány...

122 просмотров

regex unix awk lemmatization

07.05.2023

Лемма, извлеченная в синтаксическом анализаторе дерева в Стэнфорде

Я использую синтаксический анализатор Stanford для своей реализации. Я хотел бы использовать дерево предложения для извлечения различной информации. Я использовал код в: Получить определенные узлы из дерева разбора : У меня есть предложение...

324 просмотров

java stanford-nlp tree pos-tagger lemmatization

30.03.2023

Импорт Stanford nlp Intellij

У меня проблемы с использованием Stanford Lemmatizer. Поскольку я использую Intellij IDE, я пытаюсь импортировать его через Windows зависимостей, но таким образом я не могу получить доступ ко всему классу. Есть ли способ правильно импортировать...

2669 просмотров

java intellij-idea stanford-nlp lemmatization

19.02.2024

Scala Преобразовать [Seq[string] в [String]? (TF-IDF после лемматизации)

Я пытаюсь изучить scala и, в частности, анализ текста (лемматизация, матрица TF-IDF и LSA). У меня есть несколько текстов, которые я хочу лемматизировать и сделать классификацию (LSA). Я использую искру на cloudera. Поэтому я использовал...

204 просмотров

scala tf-idf lsa lemmatization

16.06.2023

Как TreeTagger получает лемму слова?

Я использую TreeTagger, чтобы получить леммы слов на испанском языке, но я заметил, что слишком много слов не трансформируются должным образом. Я хотел бы знать, как работает эта операция, выполняется ли она с помощью таких методов, как деревья...

241 просмотров

nlp lemmatization treetagger

04.09.2022

Перебор лемм в NLTK Wordnet

У вас есть скрипт для получения итальянских синонимов из Wordnet, например: from nltk.corpus import wordnet as wn it_lemmas = wn.lemmas("problema", lang="ita") hypernyms = it_lemmas[0].synset().hypernyms()...

405 просмотров

python nlp nltk wordnet lemmatization

12.11.2022

Лемматизация данных, извлеченных из Интернета

Предположим, у меня есть текстовый документ, например: document = '<p> I am a sentence. I am another sentence <p> I am a third sentence.' (или более сложный текстовый пример: document = '<p>Forde Education are looking to...

117 просмотров

python nlp text-parsing lemmatization stemming

01.03.2022

Как лемматизировать корпус с определенным словарем в R?»

Я пытаюсь выполнить lemmatization в корпусе, используя функцию lemmatize_strings() в качестве аргумента для tm_map() пакета tm . Но я хочу использовать свой собственный словарь ("lexico" - первый столбец с полной формой слова в нижнем...

1216 просмотров

r text-mining lemmatization

07.06.2022