Вопросы по теме 'stemming'

Поиск в единственном/множественном числе и определение корней
Я нахожу простое решение для поиска по ключевым словам в единственном и множественном числе. Я слышал о стемминге, но я не хочу использовать все его возможности, а только преобразование множественного/единственного числа. Язык голландский. Вы уже...
2245 просмотров
schedule 15.08.2022

почему Портер Стеммер дает строку, которую можно снова сформулировать?
стебель('яблоки')='яблоко' стебель('яблоко')='приложение' стебель('приложение')='приложение' разве это не ошибка в алгоритме стемминга? (здесь используется алгоритм стемминга Портера )
473 просмотров
schedule 07.11.2023

Избегайте медленного выделения на Solr из-за стемпинга
Я новичок в использовании Solr, но хотел бы попросить вашей помощи. Я разрабатываю приложение, которое должно иметь возможность выделять результаты запроса. Для этого я использую фрагментатор регулярных выражений: <highlighting>...
1540 просмотров
schedule 31.03.2024

Слюни для морфологического анализа
Подходит ли Drools для написания правил для Stemming и/или POS-тегов? Приветствуются предложения по улучшению языка правил. Я прочитал много статей в этой области, в которых используется подход, основанный на правилах, но ни в одной из них не...
160 просмотров

Многоязычный поиск в Haystack с ElasticSearch
Я хотел бы установить язык основы для каждого пользователя в Django Haystack с ElasticSearch в качестве бэкэнда. В нашей модели Django у нас есть объекты изображения, которые содержат разделенное запятыми поле char для английского, испанского,...
1489 просмотров

Совместимость Stemmers между NLTK и Lucene
Я использую Lucene в Java для индексации корпуса и извлечения из него списков слов. Я использую EnglishAnalyzer. Затем я передаю список слов Python, чтобы он сделал некоторые вещи с NLTK. Есть ли в NLTK стеммер, полностью совместимый со стеммером,...
939 просмотров
schedule 04.06.2022

Как Word находит совпадающие словоформы в расширенном поиске?
У меня есть текстовый документ, в котором встречаются как «выполнение», так и «производительность». Когда я использую расширенный инструмент поиска в пользовательском интерфейсе Word (цель в конечном итоге перевести его в команду Find.Execute для...
565 просмотров
schedule 03.06.2023

Стемминг + подстановочные знаки: неожиданные эффекты
Я редактирую реализацию lucene .net (2.3.2) на работе, чтобы включить определение основы и автоматические подстановочные знаки (добавление * в конце слов). Я обнаружил, что точные слова с подстановочными знаками не работают. (поэтому stack*...
796 просмотров
schedule 18.08.2022

R завершение строки / документа / корпуса
Я пытаюсь сделать некоторые изменения в R, но, похоже, он работает только с отдельными документами. Моя конечная цель - это матрица документа терминов, которая показывает частоту каждого термина в документе. Вот пример: require(RWeka)...
10548 просмотров
schedule 23.07.2023

Найти другую реализацию слова в строке предложения - Python
(Этот вопрос относится к проверке строк в целом, а не к обработке естественного языка как таковой, но если вы рассматриваете это как проблему НЛП, представьте, что это не тот язык, который современные анализаторы могут анализировать, для простоты я...
1566 просмотров
schedule 13.11.2022

основные слова и создать индекс без стоп-слов с помощью Lucene 4.0
У меня следующая проблема: есть несколько текстовых документов, которые мне нужно разобрать и создать индекс, но без стоп-слов и для определения терминов. Я могу сделать это вручную, но я слышал от коллеги о Lucene, который может делать это...
5489 просмотров
schedule 02.04.2022

Какие еще есть альтернативы стеммингу?
Учитывая список таких слов, как этот ['добавить', 'добавляет', 'добавление', 'добавлено', 'добавление'] , я хочу объединить их все в одно и то же слово "добавить" . Это означает объединение всех форм глагола и существительного слова (но не его...
1463 просмотров
schedule 26.03.2023

Как выполнить стемминг/лемминг в поисковом приложении GAE?
Я пытаюсь внедрить основу в своем поисковом приложении. Я уже пробовал использовать оператор ~, но это не сработало. Итак, у меня 3 вопроса: 1) Должен ли я каким-то особым образом индексировать документ, чтобы иметь возможность искать его с...
382 просмотров
schedule 23.04.2023

Как удалить множественное число в Lucene.NET?
Я пытаюсь извлечь некоторые ключевые слова из текста. Это работает отлично, но мне нужно удалить множественное число. Поскольку я уже использую Lucene для целей поиска, я пытаюсь использовать его для извлечения ключевых слов из проиндексированных...
1542 просмотров
schedule 06.02.2024

Поиск основы и точных слов в Lucene 4.4.0
Я храню документ Lucene с одним текстовым полем, содержащим слова без стеблей. Мне нужно реализовать программу поиска, которая позволит пользователям искать слова и точные слова, но если я сохранил слова без основы, поиск по основе не может быть...
1516 просмотров
schedule 16.07.2023

изменить стеммер weka для персидского текста
Я хочу использовать weka для классификации текста на персидском языке. Но у меня есть проблема. Токенизатор, стоп-лист и стеммер на персидском языке отличаются от английского. Поэтому я должен использовать свой стеммер, токенизатор и стоп-лист в...
313 просмотров
schedule 30.04.2024

Карта MongoDB снижает частоту использования терминов с помощью стемминга и фраз
Мне нужно сделать карту частотности терминов / сокращение с поворотом: строчные термины удалить стоп-слова основные слова разбить на фразы считать каждую фразу упорядочить по убыванию Под разделением на фразы я подразумеваю...
1150 просмотров

StandardAnalyzer со стеммингом
Есть ли способ интегрировать PorterStemFilter в StandardAnalyzer в Lucene, или мне нужно скопировать/вставить исходный код StandardAnalyzers и добавить фильтр, поскольку StandardAnalyzer определяется как окончательный класс. Есть ли способ...
3314 просмотров
schedule 28.11.2022

Алгоритм сравнения стеблей
Я пишу программу, которая делает склонение слов для польского языка. В этом языке основы могут различаться в некоторых случаях (из-за палатализации или подвижного/мимолетного e и других эффектов). Например, у нас есть слово «karzeł», и это...
98 просмотров
schedule 22.07.2022

Самый эффективный с точки зрения памяти способ объединения слов и удаления хеш-слов в Perl?
Я собрал вместе некоторый Perl-скрипт, предназначенный для извлечения каждого слова из пакета документов, удаления всех стоп-слов, объединения оставшихся слов и создания хэша, содержащего каждое слово с основой и его частоту появления. Однако,...
132 просмотров
schedule 31.03.2022