Публикации по тегам doc2vec

Публикации по теме 'doc2vec'

Мультиклассовая классификация текста с помощью Doc2Vec и логистической регрессии

Мультиклассовая классификация текста с помощью Doc2Vec и логистической регрессии Цель состоит в том, чтобы с помощью Doc2Vec и логистической регрессии классифицировать жалобы потребителей на финансирование по 12 заранее определенным классам. Doc2vec - это инструмент NLP для представления документов в виде вектора и является обобщением метода word2vec . Чтобы понять doc2vec, желательно понять подход word2vec. Однако полные математические подробности выходят за рамки этой..

Fasttext и Doc2Vec для классификации текстов

Всем привет, В этой статье я покажу вам, как создать мультиклассовый классификатор для любого типа текста с помощью Fasttext и Doc2Vec. Этот документ станет руководством для тех, кто будет работать с классификатором текстов впервые. Начиная с загрузки данных, я буду следовать шагам очистки данных, подготовки данных для обучения и построения модели. Наконец, я закончу свою статью, сделав прогнозы для цели. Если вы готовы, давайте начнем с загрузки данных! Загрузить данные Прежде..

Классификация новостей (несбалансированные классы) — НЛП

Обработка естественного языка, машинное обучение, TF-IDF, набор слов, разреженные векторы, spaCy, глубокое обучение, Doc2Bow, Keras 1. Введение Репозиторий Github Проект с Miguel Payà Обработка естественного языка (NLP) — это область искусственного интеллекта, которая помогает компьютерам понимать, интерпретировать человеческий язык и манипулировать им. NLP занимается исследованием вычислительно эффективных механизмов общения человека с машиной с использованием..

Подход к классификации текста с использованием векторного пространственного моделирования (Doc2Vec) и PCA

Предположим, вам дали много обзоров фильмов с положительными и отрицательными тегами. Теперь, если вам нужно разработать какой-то автоматический алгоритм, который определит, является ли недавно написанный обзор положительным или отрицательным, как вы продвигаетесь к простейшему возможному подходу? Определенно вам придется применить стандартные методы классификации ML (из постановки задачи легко понять, что это проблема классификации). Но здесь проблема в кусках текстовых данных. Это не..

50 оттенков текста - использование обработки естественного языка (NLP)

«На пути к человеческому пониманию текстов / языков компьютерами» 21 июня 2018 года в Buildo компания Data Science Milan организовала мероприятие на модную тему: Обработка естественного языка (NLP). В настоящее время мы нашли множество приложений НЛП, таких как машинный перевод (переводчик Google), ответы на вопросы (чат-бот), поиск в Интернете и приложениях (Amazon), лексическая семантика (Тезаурус), анализ настроений (Cambridge Analytica), генератор естественного языка (бот..

Вопросы по теме 'doc2vec'

получение представления абзацев для невидимых абзацев в doc2vec

Я хотел бы использовать модель genism doc2vec для задачи классификации. Однако похоже, что реализация doc2vec в gensim требует просмотра всех документов (обучающих и тестовых) для создания словаря перед обучением модели. В противном случае вы...

411 просмотров

gensim classification doc2vec

04.04.2022

Подходит ли Doc2Vec для анализа настроений?

Я читал более современные сообщения о классификации (анализе) настроений, такие как this . Взяв в качестве примера набор данных IMDB, я обнаружил, что получаю аналогичный процент точности при использовании Doc2Vec (88%), однако гораздо лучший...

2537 просмотров

machine-learning gensim sentiment-analysis word2vec doc2vec

10.04.2024

Doc2vec Gensim: вложения слов не обновляются каждую эпоху

Я использую модель Gensim Doc2vec для обучения векторов документов. Я распечатал изображения для слова «хорошо», но я нашел каждую эпоху, я обнаружил, что не обновляется! Пока я распечатывал изображения для документа с идентификатором «3», каждая...

808 просмотров

nlp gensim word2vec doc2vec

23.12.2022

Как использовать doc2vec с фразами?

я хочу иметь фразы в doc2vec, и я использую gensim.phrases. в doc2vec нам нужен помеченный документ для обучения модели, и я не могу пометить фразы. как я могу это сделать? вот мой код text = phrases.Phrases(text) for i in range(len(text)):...

999 просмотров

python nlp gensim doc2vec phrases

03.07.2022

Сходство документов: встраивание векторов по сравнению с производительностью Tf-Idf?

У меня есть коллекция документов, каждый из которых со временем быстро растет. Задача - найти похожие документы в любой момент времени. У меня есть два возможных подхода: Вложение вектора (word2vec, GloVe или fasttext) с усреднением по...

8076 просмотров

machine-learning nlp word2vec tf-idf doc2vec

18.09.2022

Почему косинусное сходство предварительно обученной модели fasttex велико между двумя сентентами, которые вообще не относительны?

Мне интересно узнать, почему предварительно обученная «модель быстрого текста» с вики (корейский), похоже, не работает! :( model = fasttext.load_model ("./ fasttext / wiki.ko.bin") model.cosine_similarity («테스트 테스트 이건 테스트 문장», «지금 아무 관계 없는 글...

305 просмотров

fasttext word2vec cosine-similarity doc2vec

29.03.2022

Изучает ли Doc2Vec представления тегов?

Я использую теги Doc2Vec в качестве уникального идентификатора для своих документов, каждый документ имеет свой тег и не имеет семантического значения. Я использую теги для поиска определенных документов, чтобы вычислить сходство между ними....

4535 просмотров

gensim doc2vec

10.06.2024

RuntimeError: снимите разблокированный замок во время обучения doc2vec

Я получаю следующую ошибку при обучении модели doc2vec в блокноте Jupyter на OS X. Ошибка воспроизводима (хотя конкретный поток, в котором она возникает, изменяется) для моего текущего набора данных, хотя я успешно обучал модели на других наборах...

593 просмотров

gensim doc2vec

11.10.2022

Какая «информация» в векторах документов позволяет прогнозировать тональность?

Предсказание тональности на основе векторов документов работает довольно хорошо, как показывают примеры: https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb...

174 просмотров

machine-learning gensim sentiment-analysis doc2vec feature-selection

14.02.2023

Как я могу улучшить косинусное сходство двух документов (предложений) в модели doc2vec?

Я создаю приложение чата НЛП на Python, используя gensim библиотеку через doc2vec модель. У меня есть жестко закодированные документы и дан набор обучающих примеров. Я тестирую модель, задавая вопрос пользователю, а затем нахожу наиболее похожие...

1915 просмотров

python nlp gensim word2vec doc2vec

01.10.2022

Как удалить стоп-слова из документов в gensim?

Я создаю приложение чата NLP, используя технику Doc2Vec в Python, используя его пакет gensim . Я уже сделал токенизацию и стемминг. Я хочу удалить стоп-слова (чтобы проверить, работает ли он лучше) как из тренировочного набора, так и из вопроса,...

7063 просмотров

python nlp gensim word2vec doc2vec

02.11.2022

Разница между TaggedDocument и TaggedLineDocument в gensim? и Как работать с файлами в каталоге?

Я новичок в doc2vec и хочу с его помощью классифицировать набор текстов. Я запутался в TaggedDocument и TaggedLineDocument. 1) В чем разница между двумя? Является ли TaggedLineDocument набором TaggedDocument? 2) Если у меня есть каталог,...

1549 просмотров

nlp gensim word2vec text-classification doc2vec

22.09.2022

Почему Doc2Vec.scale_vocab () ['память'] ['словарь'] делится на 700, чтобы получить размер словарного запаса?

Из учебника по википедии Doc2Vec по адресу https://github.com/RaRe-Technologies/gensim/blob/master/docs/notebooks/doc2vec-wikipedia.ipynb for num in range(0, 20): print('min_count: {}, size of vocab: '.format(num),...

205 просмотров

gensim doc2vec

24.07.2022

Как интерпретировать результаты кластеров после использования Doc2vec?

Я использую doc2vec для преобразования 100 лучших твитов моих последователей в векторное представление (скажем, v1 ..... v100). После этого я использую векторное представление для кластеров K-средних. model = Doc2Vec(documents=t, size=100,...

872 просмотров

python gensim cluster-analysis scikit-learn doc2vec

23.04.2023

Gensim Doc2vec finalize_vocab Ошибка памяти

Я пытаюсь обучить модель Doc2Vec, используя gensim с уникальными документами/метками 114M и размером словарного запаса около 3M уникальных слов. У меня есть Linux-машина Ram на 115 ГБ в Azure. Когда я запускаю build_vocab, итератор анализирует все...

836 просмотров

python nlp gensim doc2vec

12.08.2022

какой минимальный размер набора данных необходим для хорошей производительности с doc2vec?

Как работает doc2vec при обучении на наборах данных разного размера? В исходном корпусе нет упоминания о размере набора данных, поэтому мне интересно, каков минимальный размер, необходимый для получения хорошей производительности от doc2vec.

3102 просмотров

nlp doc2vec

05.07.2022

Как найти наиболее похожие термины/слова документа в doc2vec?

Я применил Doc2vec для преобразования документов в векторы. После этого я использовал векторы для кластеризации и вычислил 5 ближайших/наиболее похожих документов на центр тяжести каждого кластера. Теперь мне нужно найти наиболее доминирующие или...

2772 просмотров

python gensim cluster-analysis word2vec doc2vec

29.01.2023

Несколько тегов для одного документа в doc2vec. TaggedDocument

Можно ли обучить модель doc2vec, в которой один документ имеет несколько тегов? Например, в обзорах фильмов doc0 = doc2vec.TaggedDocument(words=review0,tags=['UID_0','horror','action']) doc1 =...

2622 просмотров

python nlp gensim word2vec doc2vec

11.01.2023

Маркировка предложений Gensim doc2vec

Я пытаюсь понять doc2vec и могу ли я использовать его для решения своего сценария. Я хочу пометить предложения с 1 или более тегами, используя TaggedSentences([слова], [теги]), но я не уверен, правильно ли я понимаю. в общем, мне нужно, чтобы это...

1571 просмотров

python machine-learning gensim data-science doc2vec

21.05.2022

Оптимизация gensim (компилятор C и BLAS) в Window 7

Я хочу оптимизировать gensim для запуска doc2vec в Window7 [1] Компилятор C Я установил gensim, следуя этой инструкции: https://radimrehurek.com/gensim/install.html pip install --upgrade gensim Однако на этой странице (...

1096 просмотров

python-2.7 gensim word2vec doc2vec blas

02.03.2023