Вопросы по теме 'stop-words'

Полнотекстовый поиск: поиск шумовых слов
У меня есть база данных в SQL Server 2008 с индексами полнотекстового поиска. Я определил стоп-слово «al» в стоп-листе. Однако, когда я ищу любую фразу с ключевым словом «al», слово «al» по-прежнему используется в рейтинге. Это может быть связано...
980 просмотров
schedule 03.10.2022

Список неинтересных слов
[Предостережение] Это не напрямую вопрос программирования, но это то, что так часто возникает при обработке языка, что я уверен, что это будет полезно сообществу. Есть ли у кого-нибудь хороший список неинтересных (английских) слов, проверенных...
1243 просмотров
schedule 27.11.2022

Как я могу написать полный поисковый индексный запрос, который не будет учитывать стоп-слова?
Я написал запрос, который будет выполнять полнотекстовый поиск с использованием индекса полного поиска в таблице mysql. Но моя проблема в том, что когда пользователь выполняет поиск с помощью «to go», он ничего не будет искать из-за стоп-слов в...
1761 просмотров
schedule 16.05.2023

Как удалить список слов из списка строк
Извините, если вопрос немного сбивает с толку. Это похоже на этот вопрос Я думаю, что этот вопрос близок к тому, что я хочу, но в Clojure. Есть еще один вопрос Мне нужно что-то вроде этого, но вместо '[br]' в этом вопросе есть список...
18071 просмотров

Как удалить стоп-слова из большого текстового файла?
У меня есть корпус из миллиарда слов, который я собрал в виде скаляра. У меня есть файл .regex, содержащий все стоп-слова, которые я хочу исключить из своих данных (текста). Я не знаю, как использовать этот файл .regex, поэтому я создал массив и...
3143 просмотров
schedule 16.11.2022

Как удалить стоп-слова с помощью nltk или python
Итак, у меня есть набор данных, который я хотел бы удалить из использования стоп-слов. stopwords.words('english') Я изо всех сил пытаюсь использовать это в своем коде, чтобы просто убрать эти слова. У меня уже есть список слов из этого...
201157 просмотров
schedule 02.12.2022

Стоп-слова Solr отображаются в результатах поиска фасетов
В настоящее время я тестирую поиск фасетов в текстовом поле в моей схеме Solr и заметил, что получаю значительное количество результатов, которые находятся в моем файле stopwords.txt. Моя схема в настоящее время использует конфигурацию по умолчанию...
1583 просмотров
schedule 14.07.2023

Как получить стоп-слова MySQL с помощью SQL
Я знаю, что файл стоп-слов можно изменить с помощью переменной ft_stopword_file в MySQL. Но мне нужно прочитать эти стоп-слова в массив в PHP. Итак, мои вопросы, Есть ли способ получить набор результатов Stop Words, запросив базу данных с помощью...
2114 просмотров
schedule 11.12.2023

Как остановить результат в solr, когда фраза содержит стоп-слово?
У меня возникла проблема при поиске с помощью Solr фразы, в которой есть стоп-слова. Solr отправляет результат со стоп-словом, и это не мой ожидаемый результат. Я добавил слово "тест" в stopwords.txt файле. В файле schema.xml у меня есть поле...
1413 просмотров
schedule 23.11.2023

Пропускать определенные слова при чтении текста из файла с помощью Matlab
Я создал программу Matlab для поиска биграмм слов и их частот в текстовом файле. Для этой цели я создал массив ячеек строк, используя функцию textread: unigrams = textread('file.txt','%s'); Но я также хочу опустить кучу слов, таких как «к»,...
1312 просмотров
schedule 26.09.2022

Функция стоп-слов
У меня есть эта функция, которая возвращает true, если одно из плохих слов найдено в массиве $stopwords function stopWords($string, $stopwords) { $stopwords = explode(',', $stopwords); $pattern = '/\b(' . implode('|', $stopwords) ....
1418 просмотров
schedule 09.10.2022

строчные стоп-слова в NLTK и сохранение стоп-слов в списке
Мои дорогие друзья, я хотел бы знать, как я могу сделать строчными стоп-слова в NLTK в списке с именами токенов. import nltk from nltk.corpus import stopwords tokens= ['TOWING', 'VESSEL', 'XXXX', 'XXXX', 'XXXX', 'WAS', 'FACING', 'UP', 'TO',...
12558 просмотров
schedule 12.11.2022

Разделение строки с использованием нескольких разделителей в java
Я работаю над алгоритмом интеллектуального анализа данных, где мне нужно токенизировать строку, используя несколько слов. У меня есть отдельный файл, содержащий все стоп-слова. Что мне нужно сделать, так это токенизировать входную строку любым...
1095 просмотров
schedule 03.10.2023

основные слова и создать индекс без стоп-слов с помощью Lucene 4.0
У меня следующая проблема: есть несколько текстовых документов, которые мне нужно разобрать и создать индекс, но без стоп-слов и для определения терминов. Я могу сделать это вручную, но я слышал от коллеги о Lucene, который может делать это...
5489 просмотров
schedule 02.04.2022

R удалить стоп-слова из вектора символов, используя %in%
У меня есть фрейм данных со строками, из которых я хотел бы удалить стоп-слова. Я стараюсь не использовать пакет tm , так как это большой набор данных, а tm работает немного медленнее. Я использую словарь tm stopword . library(plyr)...
15836 просмотров
schedule 08.01.2023

извлечение текста с помощью Apache Tika, а затем получение часто встречающихся слов после удаления стоп-слов
я извлек текст для файла sample.pdf с помощью Tika и lucene, и я попытался удалить стоп-слова, после чего я получил количество оставшихся слов (исключая стоп-слова) из текста. мой образец.pdf содержит This is java related information it...
1570 просмотров

mysql Изменить список стоп-слов для полнотекстового поиска
Я много искал, говорят, что мне нужно отредактировать файл my.cnf, чтобы изменить список стоп-слов. Я переименовал my-medium.cnf в my.cnf и добавил условия ft_query_expansion_limit и ft_stopword_file. Я перезапустил mySQL. Но это не вступает в...
2651 просмотров
schedule 07.05.2023

Токенизация, удаление стоп-слов с помощью Lucene с Java
Я пытаюсь токенизировать и удалить стоп-слова из txt-файла с помощью Lucene. У меня есть это: public String removeStopWords(String string) throws IOException { Set<String> stopWords = new HashSet<String>(); stopWords.add("a");...
11855 просмотров
schedule 28.10.2023

Добавление пользовательских игнорируемых слов в R tm
У меня есть Корпус в R с использованием пакета tm . Я применяю функцию removeWords для удаления игнорируемых слов tm_map(abs, removeWords, stopwords("english")) Есть ли способ добавить мои собственные стоп-слова в этот список?
35613 просмотров
schedule 17.06.2023

Стоп-слова Solr не работают
У меня на сервере запущен solr 4.0. Все работает нормально, но стоп-слова. Вот мое текстовое поле <field name="text" type="text_general" indexed="true" stored="false" multiValued="true"/> Вот мой тип поля text_general...
4794 просмотров
schedule 25.11.2022