Публикации по тегам stemming [search, stemming, porter-stemmer, solr, highlighting]

Вопросы по теме 'stemming'

Поиск в единственном/множественном числе и определение корней

Я нахожу простое решение для поиска по ключевым словам в единственном и множественном числе. Я слышал о стемминге, но я не хочу использовать все его возможности, а только преобразование множественного/единственного числа. Язык голландский. Вы уже...

2245 просмотров

search stemming

15.08.2022

почему Портер Стеммер дает строку, которую можно снова сформулировать?

стебель('яблоки')='яблоко' стебель('яблоко')='приложение' стебель('приложение')='приложение' разве это не ошибка в алгоритме стемминга? (здесь используется алгоритм стемминга Портера )

473 просмотров

porter-stemmer stemming

07.11.2023

Избегайте медленного выделения на Solr из-за стемпинга

Я новичок в использовании Solr, но хотел бы попросить вашей помощи. Я разрабатываю приложение, которое должно иметь возможность выделять результаты запроса. Для этого я использую фрагментатор регулярных выражений: <highlighting>...

1540 просмотров

solr stemming highlighting

31.03.2024

Слюни для морфологического анализа

Подходит ли Drools для написания правил для Stemming и/или POS-тегов? Приветствуются предложения по улучшению языка правил. Я прочитал много статей в этой области, в которых используется подход, основанный на правилах, но ни в одной из них не...

160 просмотров

rules rule-engine pos-tagger drools stemming

13.07.2022

Многоязычный поиск в Haystack с ElasticSearch

Я хотел бы установить язык основы для каждого пользователя в Django Haystack с ElasticSearch в качестве бэкэнда. В нашей модели Django у нас есть объекты изображения, которые содержат разделенное запятыми поле char для английского, испанского,...

1489 просмотров

django multilingual django-haystack stemming

26.05.2022

Совместимость Stemmers между NLTK и Lucene

Я использую Lucene в Java для индексации корпуса и извлечения из него списков слов. Я использую EnglishAnalyzer. Затем я передаю список слов Python, чтобы он сделал некоторые вещи с NLTK. Есть ли в NLTK стеммер, полностью совместимый со стеммером,...

939 просмотров

python nlp nltk lucene stemming

04.06.2022

Как Word находит совпадающие словоформы в расширенном поиске?

У меня есть текстовый документ, в котором встречаются как «выполнение», так и «производительность». Когда я использую расширенный инструмент поиска в пользовательском интерфейсе Word (цель в конечном итоге перевести его в команду Find.Execute для...

565 просмотров

search c# algorithm ms-word stemming

03.06.2023

Стемминг + подстановочные знаки: неожиданные эффекты

Я редактирую реализацию lucene .net (2.3.2) на работе, чтобы включить определение основы и автоматические подстановочные знаки (добавление * в конце слов). Я обнаружил, что точные слова с подстановочными знаками не работают. (поэтому stack*...

796 просмотров

wildcard lucene lucene.net stemming

18.08.2022

R завершение строки / документа / корпуса

Я пытаюсь сделать некоторые изменения в R, но, похоже, он работает только с отдельными документами. Моя конечная цель - это матрица документа терминов, которая показывает частоту каждого термина в документе. Вот пример: require(RWeka)...

10548 просмотров

r nlp tm stemming

23.07.2023

Найти другую реализацию слова в строке предложения - Python

(Этот вопрос относится к проверке строк в целом, а не к обработке естественного языка как таковой, но если вы рассматриваете это как проблему НЛП, представьте, что это не тот язык, который современные анализаторы могут анализировать, для простоты я...

1566 просмотров

python string nlp stemming

13.11.2022

основные слова и создать индекс без стоп-слов с помощью Lucene 4.0

У меня следующая проблема: есть несколько текстовых документов, которые мне нужно разобрать и создать индекс, но без стоп-слов и для определения терминов. Я могу сделать это вручную, но я слышал от коллеги о Lucene, который может делать это...

5489 просмотров

lucene stop-words stemming

02.04.2022

Какие еще есть альтернативы стеммингу?

Учитывая список таких слов, как этот ['добавить', 'добавляет', 'добавление', 'добавлено', 'добавление'] , я хочу объединить их все в одно и то же слово "добавить" . Это означает объединение всех форм глагола и существительного слова (но не его...

1463 просмотров

python nltk porter-stemmer stemming

26.03.2023

Как выполнить стемминг/лемминг в поисковом приложении GAE?

Я пытаюсь внедрить основу в своем поисковом приложении. Я уже пробовал использовать оператор ~, но это не сработало. Итак, у меня 3 вопроса: 1) Должен ли я каким-то особым образом индексировать документ, чтобы иметь возможность искать его с...

382 просмотров

google-app-engine gae-search stemming

23.04.2023

Как удалить множественное число в Lucene.NET?

Я пытаюсь извлечь некоторые ключевые слова из текста. Это работает отлично, но мне нужно удалить множественное число. Поскольку я уже использую Lucene для целей поиска, я пытаюсь использовать его для извлечения ключевых слов из проиндексированных...

1542 просмотров

.net c# lemmatization lucene.net stemming

06.02.2024

Поиск основы и точных слов в Lucene 4.4.0

Я храню документ Lucene с одним текстовым полем, содержащим слова без стеблей. Мне нужно реализовать программу поиска, которая позволит пользователям искать слова и точные слова, но если я сохранил слова без основы, поиск по основе не может быть...

1516 просмотров

java indexing lucene stemming

16.07.2023

изменить стеммер weka для персидского текста

Я хочу использовать weka для классификации текста на персидском языке. Но у меня есть проблема. Токенизатор, стоп-лист и стеммер на персидском языке отличаются от английского. Поэтому я должен использовать свой стеммер, токенизатор и стоп-лист в...

313 просмотров

text classification weka stemming persian

30.04.2024

Карта MongoDB снижает частоту использования терминов с помощью стемминга и фраз

Мне нужно сделать карту частотности терминов / сокращение с поворотом: строчные термины удалить стоп-слова основные слова разбить на фразы считать каждую фразу упорядочить по убыванию Под разделением на фразы я подразумеваю...

1150 просмотров

mongodb full-text-search mapreduce stop-words stemming

01.04.2023

StandardAnalyzer со стеммингом

Есть ли способ интегрировать PorterStemFilter в StandardAnalyzer в Lucene, или мне нужно скопировать/вставить исходный код StandardAnalyzers и добавить фильтр, поскольку StandardAnalyzer определяется как окончательный класс. Есть ли способ...

3314 просмотров

lucene porter-stemmer stemming

28.11.2022

Алгоритм сравнения стеблей

Я пишу программу, которая делает склонение слов для польского языка. В этом языке основы могут различаться в некоторых случаях (из-за палатализации или подвижного/мимолетного e и других эффектов). Например, у нас есть слово «karzeł», и это...

98 просмотров

nlp algorithm stemming

22.07.2022

Самый эффективный с точки зрения памяти способ объединения слов и удаления хеш-слов в Perl?

Я собрал вместе некоторый Perl-скрипт, предназначенный для извлечения каждого слова из пакета документов, удаления всех стоп-слов, объединения оставшихся слов и создания хэша, содержащего каждое слово с основой и его частоту появления. Однако,...

132 просмотров

performance memory perl stop-words stemming

31.03.2022