Публикации по тегам n-gram

Вопросы по теме 'n-gram'

Как реализовать функцию ядра спектра в MATLAB?

Функция ядра спектра работает со строками, подсчитывая одинаковые n-граммы между двумя строками. Например, слово «tool» имеет три 2-грамма («to», «oo» и «ol»), а сходство между «tool» и «fool» равно 2. («oo» и «ol» общие ). Как я могу написать...

2791 просмотров

matlab n-gram

18.01.2024

Матрица перехода вероятности

Я работаю над цепями Маркова и хотел бы знать об эффективных алгоритмах построения вероятностных переходных матриц (порядка n) с использованием текстового файла в качестве входных данных. Мне не нужен один алгоритм, но я бы предпочел составить...

1325 просмотров

algorithm n-gram

28.03.2023

Сходство предложений n-граммов с измерением сходства косинусом

Я работал над проектом о схожести предложений. Я знаю, что об этом много раз спрашивали в SO, но я просто хочу знать, может ли моя проблема быть решена с помощью метода, который я использую тем, как я это делаю, или я должен изменить свой подход к...

7789 просмотров

trigonometry similarity n-gram

25.07.2022

Расчет точечной взаимной информации (PMI) для n-грамм в Python

У меня есть большой корпус n-грамм и несколько внешних n-грамм. Я хочу рассчитать оценку PMI каждой внешней n-граммы на основе этого корпуса (подсчеты). Существуют ли какие-либо инструменты для этого или кто-нибудь может предоставить мне фрагмент...

4300 просмотров

python n-gram

24.12.2023

где скачать многоязычный список слов из Викисловаря?

Мне интересно, есть ли место для загрузки многоязычных списков слов из Викисловаря?

1683 просмотров

nlp n-gram wiktionary

22.08.2022

Алгоритм НЛП для «заполнения» условий поиска

Я пытаюсь написать алгоритм (который, как я предполагаю, будет опираться на методы обработки естественного языка), чтобы «заполнить» список условий поиска. Вероятно, для этого вида вещей есть название, о котором я не знаю. Как называется такая...

348 просмотров

python nlp n-gram

01.09.2022

извлекать n-граммы из шаблонов

Я пробовал извлекать нграммы из паттернов, которые извлекаются из текстовых документов, паттерны имеют разное количество терминов. например: если шаблон p = {t1, t2, t3} и нам нужно извлечь ngram 3 это должно быть так t1 t2 t3 t1, t2...

1119 просмотров

java n-gram

26.02.2023

Ошибка Python NLTK NGrams

Я запускаю код, чтобы получить недоумение, количество энграмм из текстового корпуса. При этом я получил странную ошибку: C:\Users\Rosenkrantz\Documents\NetBeansProjects\JavaApplication2>python ai7.py...

702 просмотров

python nltk n-gram assertion

02.08.2022

подсчет частоты n-грамм в python nltk

У меня есть следующий код. Я знаю, что могу использовать функцию apply_freq_filter , чтобы отфильтровать словосочетания, которые меньше числа частот. Однако я не знаю, как получить частоты всех n-граммовых кортежей (в моем случае двухграммных) в...

59447 просмотров

python nltk n-gram

06.04.2022

Могу ли я защитить короткие слова от фильтра n-грамм в Solr?

Я видел этот вопрос о поиске коротких слов в Solr. Мне интересно, есть ли другое возможное решение аналогичной проблемы. Я использую EdgeNGramFilter с minGramSize, равным 3. Я хочу защитить определенный набор более коротких слов (в основном,...

680 просмотров

search solr lucene n-gram

04.02.2023

создание триграмм с использованием LinkedHashMap java

Я пытаюсь создать модель триграммы, используя LinkedHashMap>, где Entry — это запись последней введенной биграммы (структура которой: LinkedHashMap Теперь проблема в том, что, будучи картой, она не хранит несколько ключей (перезаписывает...

436 просмотров

java hashmap n-gram multimap on-duplicate-key

24.06.2023

Каковы наиболее осуществимые варианты обработки набора данных n-грамм Google Books с использованием скромных ресурсов?

Мне нужно рассчитать статистику совпадения слов для примерно 10 000 целевых слов и нескольких сотен контекстных слов для каждого целевого слова из n-граммового корпуса книг Google. Ниже ссылка на полный набор данных: Просмотрщик Google Ngram...

355 просмотров

hadoop hive bigdata distributed-computing n-gram

19.06.2023

Обучение и оценка распределений биграмм/триграмм с помощью NgramModel в nltk с использованием сглаживания Witten Bell

Я хотел бы обучить NgramModel на одном наборе предложений, используя сглаживание Виттена-Белла для оценки невидимых ngrams, а затем использовать его для получения логарифмической вероятности тестового набора, сгенерированного этим распределением. Я...

3211 просмотров

python nltk n-gram

21.06.2022

Понимание циклических полиномиальных хэш-коллизий

У меня есть код, который использует циклический полиномиальный скользящий хеш (Бужаш) для вычисления хэш-значений n-граммов исходного кода. Если я использую небольшие хэш-значения (7-8 бит), то возникают некоторые коллизии, т.е. разные n-граммы...

1151 просмотров

hash n-gram hash-collision

23.04.2022

Преобразование списка токенов в n-граммы

У меня есть список документов, которые уже были токенизированы: dat <- list(c("texaco", "canada", "lowered", "contract", "price", "pay", "crude", "oil", "canadian", "cts", "barrel", "effective", "decrease", "brings", "companys", "posted",...

969 просмотров

r vectorization n-gram

13.05.2023

Возвращайте только те результаты, которые соответствуют достаточному количеству NGram с помощью Solr.

Чтобы добиться некоторой степени отказоустойчивости с Solr, я начал использовать NGramFilterFactory . Вот интересные моменты из schema.xml : <field name="text" type="text" indexed="true" stored="true"/> <copyField source="text"...

1509 просмотров

solr n-gram relevance

15.09.2023

Вычислить энграммы для каждой строки текстовых данных в R

У меня есть столбец данных следующего формата: Текст Hello world Hello How are you today I love stackoverflow blah blah blahdy Я хотел бы вычислить 3 грамма для каждой строки в этом наборе данных, возможно, используя функцию...

5862 просмотров

r text n-gram text-parsing tm

22.02.2023

найти все фразы из двух слов, которые встречаются более чем в одной строке набора данных

Мы хотели бы запустить запрос, который возвращает две словосочетания, которые появляются более чем в одной строке. Так, например. возьмите строку «Data Ninja». Поскольку он появляется более чем в одной строке нашего набора данных, запрос должен...

7362 просмотров

google-bigquery data-analysis bigdata data-mining n-gram

06.05.2023

n-граммы с ошибкой наивного байесовского классификатора

Я экспериментировал с текстовой классификацией Python NLTK. Вот пример кода, который я практикую: http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/ Вот код: from nltk import bigrams from nltk.probability...

1505 просмотров

python nltk n-gram

24.08.2022

Как найти наиболее часто встречающиеся слова до и после заданного слова в данном тексте в python?

У меня есть большой текст, и я пытаюсь получить наиболее часто встречающиеся слова до и после данного слова в этом тексте. Например: Я хочу знать, какое слово встречается чаще всего после слова «озеро». В идеале должно получиться что-то вроде...

1618 просмотров

python-2.7 nlp nltk n-gram

05.07.2023