Публикации по теме 'doc2vec'


Мультиклассовая классификация текста с помощью Doc2Vec и логистической регрессии
Мультиклассовая классификация текста с помощью Doc2Vec и логистической регрессии Цель состоит в том, чтобы с помощью Doc2Vec и логистической регрессии классифицировать жалобы потребителей на финансирование по 12 заранее определенным классам. Doc2vec - это инструмент NLP для представления документов в виде вектора и является обобщением метода word2vec . Чтобы понять doc2vec, желательно понять подход word2vec. Однако полные математические подробности выходят за рамки этой..

Fasttext и Doc2Vec для классификации текстов
Всем привет, В этой статье я покажу вам, как создать мультиклассовый классификатор для любого типа текста с помощью Fasttext и Doc2Vec. Этот документ станет руководством для тех, кто будет работать с классификатором текстов впервые. Начиная с загрузки данных, я буду следовать шагам очистки данных, подготовки данных для обучения и построения модели. Наконец, я закончу свою статью, сделав прогнозы для цели. Если вы готовы, давайте начнем с загрузки данных! Загрузить данные Прежде..

Классификация новостей (несбалансированные классы) — НЛП
Обработка естественного языка, машинное обучение, TF-IDF, набор слов, разреженные векторы, spaCy, глубокое обучение, Doc2Bow, Keras 1. Введение Репозиторий Github Проект с Miguel Payà Обработка естественного языка (NLP) — это область искусственного интеллекта, которая помогает компьютерам понимать, интерпретировать человеческий язык и манипулировать им. NLP занимается исследованием вычислительно эффективных механизмов общения человека с машиной с использованием..

Подход к классификации текста с использованием векторного пространственного моделирования (Doc2Vec) и PCA
Предположим, вам дали много обзоров фильмов с положительными и отрицательными тегами. Теперь, если вам нужно разработать какой-то автоматический алгоритм, который определит, является ли недавно написанный обзор положительным или отрицательным, как вы продвигаетесь к простейшему возможному подходу? Определенно вам придется применить стандартные методы классификации ML (из постановки задачи легко понять, что это проблема классификации). Но здесь проблема в кусках текстовых данных. Это не..

50 оттенков текста - использование обработки естественного языка (NLP)
«На пути к человеческому пониманию текстов / языков компьютерами» 21 июня 2018 года в Buildo компания Data Science Milan организовала мероприятие на модную тему: Обработка естественного языка (NLP). В настоящее время мы нашли множество приложений НЛП, таких как машинный перевод (переводчик Google), ответы на вопросы (чат-бот), поиск в Интернете и приложениях (Amazon), лексическая семантика (Тезаурус), анализ настроений (Cambridge Analytica), генератор естественного языка (бот..

Вопросы по теме 'doc2vec'

получение представления абзацев для невидимых абзацев в doc2vec
Я хотел бы использовать модель genism doc2vec для задачи классификации. Однако похоже, что реализация doc2vec в gensim требует просмотра всех документов (обучающих и тестовых) для создания словаря перед обучением модели. В противном случае вы...
411 просмотров
schedule 04.04.2022

Подходит ли Doc2Vec для анализа настроений?
Я читал более современные сообщения о классификации (анализе) настроений, такие как this . Взяв в качестве примера набор данных IMDB, я обнаружил, что получаю аналогичный процент точности при использовании Doc2Vec (88%), однако гораздо лучший...
2537 просмотров

Doc2vec Gensim: вложения слов не обновляются каждую эпоху
Я использую модель Gensim Doc2vec для обучения векторов документов. Я распечатал изображения для слова «хорошо», но я нашел каждую эпоху, я обнаружил, что не обновляется! Пока я распечатывал изображения для документа с идентификатором «3», каждая...
808 просмотров
schedule 23.12.2022

Как использовать doc2vec с фразами?
я хочу иметь фразы в doc2vec, и я использую gensim.phrases. в doc2vec нам нужен помеченный документ для обучения модели, и я не могу пометить фразы. как я могу это сделать? вот мой код text = phrases.Phrases(text) for i in range(len(text)):...
999 просмотров
schedule 03.07.2022

Сходство документов: встраивание векторов по сравнению с производительностью Tf-Idf?
У меня есть коллекция документов, каждый из которых со временем быстро растет. Задача - найти похожие документы в любой момент времени. У меня есть два возможных подхода: Вложение вектора (word2vec, GloVe или fasttext) с усреднением по...
8076 просмотров

Почему косинусное сходство предварительно обученной модели fasttex велико между двумя сентентами, которые вообще не относительны?
Мне интересно узнать, почему предварительно обученная «модель быстрого текста» с вики (корейский), похоже, не работает! :( model = fasttext.load_model ("./ fasttext / wiki.ko.bin") model.cosine_similarity («테스트 테스트 이건 테스트 문장», «지금 아무 관계 없는 글...
305 просмотров

Изучает ли Doc2Vec представления тегов?
Я использую теги Doc2Vec в качестве уникального идентификатора для своих документов, каждый документ имеет свой тег и не имеет семантического значения. Я использую теги для поиска определенных документов, чтобы вычислить сходство между ними....
4535 просмотров
schedule 10.06.2024

RuntimeError: снимите разблокированный замок во время обучения doc2vec
Я получаю следующую ошибку при обучении модели doc2vec в блокноте Jupyter на OS X. Ошибка воспроизводима (хотя конкретный поток, в котором она возникает, изменяется) для моего текущего набора данных, хотя я успешно обучал модели на других наборах...
593 просмотров
schedule 11.10.2022

Какая «информация» в векторах документов позволяет прогнозировать тональность?
Предсказание тональности на основе векторов документов работает довольно хорошо, как показывают примеры: https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb...
174 просмотров

Как я могу улучшить косинусное сходство двух документов (предложений) в модели doc2vec?
Я создаю приложение чата НЛП на Python, используя gensim библиотеку через doc2vec модель. У меня есть жестко закодированные документы и дан набор обучающих примеров. Я тестирую модель, задавая вопрос пользователю, а затем нахожу наиболее похожие...
1915 просмотров
schedule 01.10.2022

Как удалить стоп-слова из документов в gensim?
Я создаю приложение чата NLP, используя технику Doc2Vec в Python, используя его пакет gensim . Я уже сделал токенизацию и стемминг. Я хочу удалить стоп-слова (чтобы проверить, работает ли он лучше) как из тренировочного набора, так и из вопроса,...
7063 просмотров
schedule 02.11.2022

Разница между TaggedDocument и TaggedLineDocument в gensim? и Как работать с файлами в каталоге?
Я новичок в doc2vec и хочу с его помощью классифицировать набор текстов. Я запутался в TaggedDocument и TaggedLineDocument. 1) В чем разница между двумя? Является ли TaggedLineDocument набором TaggedDocument? 2) Если у меня есть каталог,...
1549 просмотров

Почему Doc2Vec.scale_vocab () ['память'] ['словарь'] делится на 700, чтобы получить размер словарного запаса?
Из учебника по википедии Doc2Vec по адресу https://github.com/RaRe-Technologies/gensim/blob/master/docs/notebooks/doc2vec-wikipedia.ipynb for num in range(0, 20): print('min_count: {}, size of vocab: '.format(num),...
205 просмотров
schedule 24.07.2022

Как интерпретировать результаты кластеров после использования Doc2vec?
Я использую doc2vec для преобразования 100 лучших твитов моих последователей в векторное представление (скажем, v1 ..... v100). После этого я использую векторное представление для кластеров K-средних. model = Doc2Vec(documents=t, size=100,...
872 просмотров

Gensim Doc2vec finalize_vocab Ошибка памяти
Я пытаюсь обучить модель Doc2Vec, используя gensim с уникальными документами/метками 114M и размером словарного запаса около 3M уникальных слов. У меня есть Linux-машина Ram на 115 ГБ в Azure. Когда я запускаю build_vocab, итератор анализирует все...
836 просмотров
schedule 12.08.2022

какой минимальный размер набора данных необходим для хорошей производительности с doc2vec?
Как работает doc2vec при обучении на наборах данных разного размера? В исходном корпусе нет упоминания о размере набора данных, поэтому мне интересно, каков минимальный размер, необходимый для получения хорошей производительности от doc2vec.
3102 просмотров
schedule 05.07.2022

Как найти наиболее похожие термины/слова документа в doc2vec?
Я применил Doc2vec для преобразования документов в векторы. После этого я использовал векторы для кластеризации и вычислил 5 ближайших/наиболее похожих документов на центр тяжести каждого кластера. Теперь мне нужно найти наиболее доминирующие или...
2772 просмотров

Несколько тегов для одного документа в doc2vec. TaggedDocument
Можно ли обучить модель doc2vec, в которой один документ имеет несколько тегов? Например, в обзорах фильмов doc0 = doc2vec.TaggedDocument(words=review0,tags=['UID_0','horror','action']) doc1 =...
2622 просмотров
schedule 11.01.2023

Маркировка предложений Gensim doc2vec
Я пытаюсь понять doc2vec и могу ли я использовать его для решения своего сценария. Я хочу пометить предложения с 1 или более тегами, используя TaggedSentences([слова], [теги]), но я не уверен, правильно ли я понимаю. в общем, мне нужно, чтобы это...
1571 просмотров

Оптимизация gensim (компилятор C и BLAS) в Window 7
Я хочу оптимизировать gensim для запуска doc2vec в Window7 [1] Компилятор C Я установил gensim, следуя этой инструкции: https://radimrehurek.com/gensim/install.html pip install --upgrade gensim Однако на этой странице (...
1096 просмотров
schedule 02.03.2023