Вопросы по теме 'stop-words'
Полнотекстовый поиск: поиск шумовых слов
У меня есть база данных в SQL Server 2008 с индексами полнотекстового поиска. Я определил стоп-слово «al» в стоп-листе. Однако, когда я ищу любую фразу с ключевым словом «al», слово «al» по-прежнему используется в рейтинге.
Это может быть связано...
980 просмотров
schedule
03.10.2022
Список неинтересных слов
[Предостережение] Это не напрямую вопрос программирования, но это то, что так часто возникает при обработке языка, что я уверен, что это будет полезно сообществу.
Есть ли у кого-нибудь хороший список неинтересных (английских) слов, проверенных...
1243 просмотров
schedule
27.11.2022
Как я могу написать полный поисковый индексный запрос, который не будет учитывать стоп-слова?
Я написал запрос, который будет выполнять полнотекстовый поиск с использованием индекса полного поиска в таблице mysql.
Но моя проблема в том, что когда пользователь выполняет поиск с помощью «to go», он ничего не будет искать из-за стоп-слов в...
1761 просмотров
schedule
16.05.2023
Как удалить список слов из списка строк
Извините, если вопрос немного сбивает с толку. Это похоже на этот вопрос
Я думаю, что этот вопрос близок к тому, что я хочу, но в Clojure.
Есть еще один вопрос
Мне нужно что-то вроде этого, но вместо '[br]' в этом вопросе есть список...
18071 просмотров
schedule
08.10.2023
Как удалить стоп-слова из большого текстового файла?
У меня есть корпус из миллиарда слов, который я собрал в виде скаляра. У меня есть файл .regex, содержащий все стоп-слова, которые я хочу исключить из своих данных (текста).
Я не знаю, как использовать этот файл .regex, поэтому я создал массив и...
3143 просмотров
schedule
16.11.2022
Как удалить стоп-слова с помощью nltk или python
Итак, у меня есть набор данных, который я хотел бы удалить из использования стоп-слов.
stopwords.words('english')
Я изо всех сил пытаюсь использовать это в своем коде, чтобы просто убрать эти слова. У меня уже есть список слов из этого...
201157 просмотров
schedule
02.12.2022
Стоп-слова Solr отображаются в результатах поиска фасетов
В настоящее время я тестирую поиск фасетов в текстовом поле в моей схеме Solr и заметил, что получаю значительное количество результатов, которые находятся в моем файле stopwords.txt.
Моя схема в настоящее время использует конфигурацию по умолчанию...
1583 просмотров
schedule
14.07.2023
Как получить стоп-слова MySQL с помощью SQL
Я знаю, что файл стоп-слов можно изменить с помощью переменной ft_stopword_file в MySQL. Но мне нужно прочитать эти стоп-слова в массив в PHP. Итак, мои вопросы,
Есть ли способ получить набор результатов Stop Words, запросив базу данных с помощью...
2114 просмотров
schedule
11.12.2023
Как остановить результат в solr, когда фраза содержит стоп-слово?
У меня возникла проблема при поиске с помощью Solr фразы, в которой есть стоп-слова. Solr отправляет результат со стоп-словом, и это не мой ожидаемый результат.
Я добавил слово "тест" в stopwords.txt файле. В файле schema.xml у меня есть поле...
1413 просмотров
schedule
23.11.2023
Пропускать определенные слова при чтении текста из файла с помощью Matlab
Я создал программу Matlab для поиска биграмм слов и их частот в текстовом файле. Для этой цели я создал массив ячеек строк, используя функцию textread:
unigrams = textread('file.txt','%s');
Но я также хочу опустить кучу слов, таких как «к»,...
1312 просмотров
schedule
26.09.2022
Функция стоп-слов
У меня есть эта функция, которая возвращает true, если одно из плохих слов найдено в массиве $stopwords
function stopWords($string, $stopwords) {
$stopwords = explode(',', $stopwords);
$pattern = '/\b(' . implode('|', $stopwords) ....
1418 просмотров
schedule
09.10.2022
строчные стоп-слова в NLTK и сохранение стоп-слов в списке
Мои дорогие друзья, я хотел бы знать, как я могу сделать строчными стоп-слова в NLTK в списке с именами токенов.
import nltk
from nltk.corpus import stopwords
tokens= ['TOWING', 'VESSEL', 'XXXX', 'XXXX', 'XXXX', 'WAS', 'FACING', 'UP', 'TO',...
12558 просмотров
schedule
12.11.2022
Разделение строки с использованием нескольких разделителей в java
Я работаю над алгоритмом интеллектуального анализа данных, где мне нужно токенизировать строку, используя несколько слов. У меня есть отдельный файл, содержащий все стоп-слова. Что мне нужно сделать, так это токенизировать входную строку любым...
1095 просмотров
schedule
03.10.2023
основные слова и создать индекс без стоп-слов с помощью Lucene 4.0
У меня следующая проблема: есть несколько текстовых документов, которые мне нужно разобрать и создать индекс, но без стоп-слов и для определения терминов. Я могу сделать это вручную, но я слышал от коллеги о Lucene, который может делать это...
5489 просмотров
schedule
02.04.2022
R удалить стоп-слова из вектора символов, используя %in%
У меня есть фрейм данных со строками, из которых я хотел бы удалить стоп-слова. Я стараюсь не использовать пакет tm , так как это большой набор данных, а tm работает немного медленнее. Я использую словарь tm stopword .
library(plyr)...
15836 просмотров
schedule
08.01.2023
извлечение текста с помощью Apache Tika, а затем получение часто встречающихся слов после удаления стоп-слов
я извлек текст для файла sample.pdf с помощью Tika и lucene, и я попытался удалить стоп-слова, после чего я получил количество оставшихся слов (исключая стоп-слова) из текста.
мой образец.pdf содержит
This is java related information it...
1570 просмотров
schedule
05.08.2022
mysql Изменить список стоп-слов для полнотекстового поиска
Я много искал, говорят, что мне нужно отредактировать файл my.cnf, чтобы изменить список стоп-слов. Я переименовал my-medium.cnf в my.cnf и добавил условия ft_query_expansion_limit и ft_stopword_file. Я перезапустил mySQL. Но это не вступает в...
2651 просмотров
schedule
07.05.2023
Токенизация, удаление стоп-слов с помощью Lucene с Java
Я пытаюсь токенизировать и удалить стоп-слова из txt-файла с помощью Lucene. У меня есть это:
public String removeStopWords(String string) throws IOException {
Set<String> stopWords = new HashSet<String>();
stopWords.add("a");...
11855 просмотров
schedule
28.10.2023
Добавление пользовательских игнорируемых слов в R tm
У меня есть Корпус в R с использованием пакета tm . Я применяю функцию removeWords для удаления игнорируемых слов
tm_map(abs, removeWords, stopwords("english"))
Есть ли способ добавить мои собственные стоп-слова в этот список?
35613 просмотров
schedule
17.06.2023
Стоп-слова Solr не работают
У меня на сервере запущен solr 4.0. Все работает нормально, но стоп-слова.
Вот мое текстовое поле
<field name="text" type="text_general" indexed="true" stored="false" multiValued="true"/>
Вот мой тип поля text_general...
4794 просмотров
schedule
25.11.2022