Вопросы по теме 'n-gram'

Как реализовать функцию ядра спектра в MATLAB?
Функция ядра спектра работает со строками, подсчитывая одинаковые n-граммы между двумя строками. Например, слово «tool» имеет три 2-грамма («to», «oo» и «ol»), а сходство между «tool» и «fool» равно 2. («oo» и «ol» общие ). Как я могу написать...
2791 просмотров
schedule 18.01.2024

Матрица перехода вероятности
Я работаю над цепями Маркова и хотел бы знать об эффективных алгоритмах построения вероятностных переходных матриц (порядка n) с использованием текстового файла в качестве входных данных. Мне не нужен один алгоритм, но я бы предпочел составить...
1325 просмотров
schedule 28.03.2023

Сходство предложений n-граммов с измерением сходства косинусом
Я работал над проектом о схожести предложений. Я знаю, что об этом много раз спрашивали в SO, но я просто хочу знать, может ли моя проблема быть решена с помощью метода, который я использую тем, как я это делаю, или я должен изменить свой подход к...
7789 просмотров
schedule 25.07.2022

Расчет точечной взаимной информации (PMI) для n-грамм в Python
У меня есть большой корпус n-грамм и несколько внешних n-грамм. Я хочу рассчитать оценку PMI каждой внешней n-граммы на основе этого корпуса (подсчеты). Существуют ли какие-либо инструменты для этого или кто-нибудь может предоставить мне фрагмент...
4300 просмотров
schedule 24.12.2023

где скачать многоязычный список слов из Викисловаря?
Мне интересно, есть ли место для загрузки многоязычных списков слов из Викисловаря?
1683 просмотров
schedule 22.08.2022

Алгоритм НЛП для «заполнения» условий поиска
Я пытаюсь написать алгоритм (который, как я предполагаю, будет опираться на методы обработки естественного языка), чтобы «заполнить» список условий поиска. Вероятно, для этого вида вещей есть название, о котором я не знаю. Как называется такая...
348 просмотров
schedule 01.09.2022

извлекать n-граммы из шаблонов
Я пробовал извлекать нграммы из паттернов, которые извлекаются из текстовых документов, паттерны имеют разное количество терминов. например: если шаблон p = {t1, t2, t3} и нам нужно извлечь ngram 3 это должно быть так t1 t2 t3 t1, t2...
1119 просмотров
schedule 26.02.2023

Ошибка Python NLTK NGrams
Я запускаю код, чтобы получить недоумение, количество энграмм из текстового корпуса. При этом я получил странную ошибку: C:\Users\Rosenkrantz\Documents\NetBeansProjects\JavaApplication2>python ai7.py...
702 просмотров
schedule 02.08.2022

подсчет частоты n-грамм в python nltk
У меня есть следующий код. Я знаю, что могу использовать функцию apply_freq_filter , чтобы отфильтровать словосочетания, которые меньше числа частот. Однако я не знаю, как получить частоты всех n-граммовых кортежей (в моем случае двухграммных) в...
59447 просмотров
schedule 06.04.2022

Могу ли я защитить короткие слова от фильтра n-грамм в Solr?
Я видел этот вопрос о поиске коротких слов в Solr. Мне интересно, есть ли другое возможное решение аналогичной проблемы. Я использую EdgeNGramFilter с minGramSize, равным 3. Я хочу защитить определенный набор более коротких слов (в основном,...
680 просмотров
schedule 04.02.2023

создание триграмм с использованием LinkedHashMap java
Я пытаюсь создать модель триграммы, используя LinkedHashMap>, где Entry — это запись последней введенной биграммы (структура которой: LinkedHashMap Теперь проблема в том, что, будучи картой, она не хранит несколько ключей (перезаписывает...
436 просмотров

Каковы наиболее осуществимые варианты обработки набора данных n-грамм Google Books с использованием скромных ресурсов?
Мне нужно рассчитать статистику совпадения слов для примерно 10 000 целевых слов и нескольких сотен контекстных слов для каждого целевого слова из n-граммового корпуса книг Google. Ниже ссылка на полный набор данных: Просмотрщик Google Ngram...
355 просмотров

Обучение и оценка распределений биграмм/триграмм с помощью NgramModel в nltk с использованием сглаживания Witten Bell
Я хотел бы обучить NgramModel на одном наборе предложений, используя сглаживание Виттена-Белла для оценки невидимых ngrams, а затем использовать его для получения логарифмической вероятности тестового набора, сгенерированного этим распределением. Я...
3211 просмотров
schedule 21.06.2022

Понимание циклических полиномиальных хэш-коллизий
У меня есть код, который использует циклический полиномиальный скользящий хеш (Бужаш) для вычисления хэш-значений n-граммов исходного кода. Если я использую небольшие хэш-значения (7-8 бит), то возникают некоторые коллизии, т.е. разные n-граммы...
1151 просмотров
schedule 23.04.2022

Преобразование списка токенов в n-граммы
У меня есть список документов, которые уже были токенизированы: dat <- list(c("texaco", "canada", "lowered", "contract", "price", "pay", "crude", "oil", "canadian", "cts", "barrel", "effective", "decrease", "brings", "companys", "posted",...
969 просмотров
schedule 13.05.2023

Возвращайте только те результаты, которые соответствуют достаточному количеству NGram с помощью Solr.
Чтобы добиться некоторой степени отказоустойчивости с Solr, я начал использовать NGramFilterFactory . Вот интересные моменты из schema.xml : <field name="text" type="text" indexed="true" stored="true"/> <copyField source="text"...
1509 просмотров
schedule 15.09.2023

Вычислить энграммы для каждой строки текстовых данных в R
У меня есть столбец данных следующего формата: Текст Hello world Hello How are you today I love stackoverflow blah blah blahdy Я хотел бы вычислить 3 грамма для каждой строки в этом наборе данных, возможно, используя функцию...
5862 просмотров
schedule 22.02.2023

найти все фразы из двух слов, которые встречаются более чем в одной строке набора данных
Мы хотели бы запустить запрос, который возвращает две словосочетания, которые появляются более чем в одной строке. Так, например. возьмите строку «Data Ninja». Поскольку он появляется более чем в одной строке нашего набора данных, запрос должен...
7362 просмотров

n-граммы с ошибкой наивного байесовского классификатора
Я экспериментировал с текстовой классификацией Python NLTK. Вот пример кода, который я практикую: http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/ Вот код: from nltk import bigrams from nltk.probability...
1505 просмотров
schedule 24.08.2022

Как найти наиболее часто встречающиеся слова до и после заданного слова в данном тексте в python?
У меня есть большой текст, и я пытаюсь получить наиболее часто встречающиеся слова до и после данного слова в этом тексте. Например: Я хочу знать, какое слово встречается чаще всего после слова «озеро». В идеале должно получиться что-то вроде...
1618 просмотров
schedule 05.07.2023