Вопросы по теме 'stemming'
Поиск в единственном/множественном числе и определение корней
Я нахожу простое решение для поиска по ключевым словам в единственном и множественном числе. Я слышал о стемминге, но я не хочу использовать все его возможности, а только преобразование множественного/единственного числа. Язык голландский. Вы уже...
2245 просмотров
schedule
15.08.2022
почему Портер Стеммер дает строку, которую можно снова сформулировать?
стебель('яблоки')='яблоко' стебель('яблоко')='приложение' стебель('приложение')='приложение'
разве это не ошибка в алгоритме стемминга?
(здесь используется алгоритм стемминга Портера )
473 просмотров
schedule
07.11.2023
Избегайте медленного выделения на Solr из-за стемпинга
Я новичок в использовании Solr, но хотел бы попросить вашей помощи. Я разрабатываю приложение, которое должно иметь возможность выделять результаты запроса. Для этого я использую фрагментатор регулярных выражений:
<highlighting>...
1540 просмотров
schedule
31.03.2024
Слюни для морфологического анализа
Подходит ли Drools для написания правил для Stemming и/или POS-тегов? Приветствуются предложения по улучшению языка правил. Я прочитал много статей в этой области, в которых используется подход, основанный на правилах, но ни в одной из них не...
160 просмотров
schedule
13.07.2022
Многоязычный поиск в Haystack с ElasticSearch
Я хотел бы установить язык основы для каждого пользователя в Django Haystack с ElasticSearch в качестве бэкэнда.
В нашей модели Django у нас есть объекты изображения, которые содержат разделенное запятыми поле char для английского, испанского,...
1489 просмотров
schedule
26.05.2022
Совместимость Stemmers между NLTK и Lucene
Я использую Lucene в Java для индексации корпуса и извлечения из него списков слов. Я использую EnglishAnalyzer. Затем я передаю список слов Python, чтобы он сделал некоторые вещи с NLTK. Есть ли в NLTK стеммер, полностью совместимый со стеммером,...
939 просмотров
schedule
04.06.2022
Как Word находит совпадающие словоформы в расширенном поиске?
У меня есть текстовый документ, в котором встречаются как «выполнение», так и «производительность». Когда я использую расширенный инструмент поиска в пользовательском интерфейсе Word (цель в конечном итоге перевести его в команду Find.Execute для...
565 просмотров
schedule
03.06.2023
Стемминг + подстановочные знаки: неожиданные эффекты
Я редактирую реализацию lucene .net (2.3.2) на работе, чтобы включить определение основы и автоматические подстановочные знаки (добавление * в конце слов).
Я обнаружил, что точные слова с подстановочными знаками не работают. (поэтому stack*...
796 просмотров
schedule
18.08.2022
R завершение строки / документа / корпуса
Я пытаюсь сделать некоторые изменения в R, но, похоже, он работает только с отдельными документами. Моя конечная цель - это матрица документа терминов, которая показывает частоту каждого термина в документе.
Вот пример:
require(RWeka)...
10548 просмотров
schedule
23.07.2023
Найти другую реализацию слова в строке предложения - Python
(Этот вопрос относится к проверке строк в целом, а не к обработке естественного языка как таковой, но если вы рассматриваете это как проблему НЛП, представьте, что это не тот язык, который современные анализаторы могут анализировать, для простоты я...
1566 просмотров
schedule
13.11.2022
основные слова и создать индекс без стоп-слов с помощью Lucene 4.0
У меня следующая проблема: есть несколько текстовых документов, которые мне нужно разобрать и создать индекс, но без стоп-слов и для определения терминов. Я могу сделать это вручную, но я слышал от коллеги о Lucene, который может делать это...
5489 просмотров
schedule
02.04.2022
Какие еще есть альтернативы стеммингу?
Учитывая список таких слов, как этот ['добавить', 'добавляет', 'добавление', 'добавлено', 'добавление'] , я хочу объединить их все в одно и то же слово "добавить" . Это означает объединение всех форм глагола и существительного слова (но не его...
1463 просмотров
schedule
26.03.2023
Как выполнить стемминг/лемминг в поисковом приложении GAE?
Я пытаюсь внедрить основу в своем поисковом приложении. Я уже пробовал использовать оператор ~, но это не сработало.
Итак, у меня 3 вопроса:
1) Должен ли я каким-то особым образом индексировать документ, чтобы иметь возможность искать его с...
382 просмотров
schedule
23.04.2023
Как удалить множественное число в Lucene.NET?
Я пытаюсь извлечь некоторые ключевые слова из текста. Это работает отлично, но мне нужно удалить множественное число.
Поскольку я уже использую Lucene для целей поиска, я пытаюсь использовать его для извлечения ключевых слов из проиндексированных...
1542 просмотров
schedule
06.02.2024
Поиск основы и точных слов в Lucene 4.4.0
Я храню документ Lucene с одним текстовым полем, содержащим слова без стеблей.
Мне нужно реализовать программу поиска, которая позволит пользователям искать слова и точные слова, но если я сохранил слова без основы, поиск по основе не может быть...
1516 просмотров
schedule
16.07.2023
изменить стеммер weka для персидского текста
Я хочу использовать weka для классификации текста на персидском языке. Но у меня есть проблема.
Токенизатор, стоп-лист и стеммер на персидском языке отличаются от английского. Поэтому я должен использовать свой стеммер, токенизатор и стоп-лист в...
313 просмотров
schedule
30.04.2024
Карта MongoDB снижает частоту использования терминов с помощью стемминга и фраз
Мне нужно сделать карту частотности терминов / сокращение с поворотом:
строчные термины
удалить стоп-слова
основные слова
разбить на фразы
считать каждую фразу
упорядочить по убыванию
Под разделением на фразы я подразумеваю...
1150 просмотров
schedule
01.04.2023
StandardAnalyzer со стеммингом
Есть ли способ интегрировать PorterStemFilter в StandardAnalyzer в Lucene, или мне нужно скопировать/вставить исходный код StandardAnalyzers и добавить фильтр, поскольку StandardAnalyzer определяется как окончательный класс. Есть ли способ...
3314 просмотров
schedule
28.11.2022
Алгоритм сравнения стеблей
Я пишу программу, которая делает склонение слов для польского языка. В этом языке основы могут различаться в некоторых случаях (из-за палатализации или подвижного/мимолетного e и других эффектов).
Например, у нас есть слово «karzeł», и это...
98 просмотров
schedule
22.07.2022
Самый эффективный с точки зрения памяти способ объединения слов и удаления хеш-слов в Perl?
Я собрал вместе некоторый Perl-скрипт, предназначенный для извлечения каждого слова из пакета документов, удаления всех стоп-слов, объединения оставшихся слов и создания хэша, содержащего каждое слово с основой и его частоту появления. Однако,...
132 просмотров
schedule
31.03.2022