Публикации по теме 'doc2vec'
Мультиклассовая классификация текста с помощью Doc2Vec и логистической регрессии
Мультиклассовая классификация текста с помощью Doc2Vec и логистической регрессии
Цель состоит в том, чтобы с помощью Doc2Vec и логистической регрессии классифицировать жалобы потребителей на финансирование по 12 заранее определенным классам.
Doc2vec - это инструмент NLP для представления документов в виде вектора и является обобщением метода word2vec .
Чтобы понять doc2vec, желательно понять подход word2vec. Однако полные математические подробности выходят за рамки этой..
Fasttext и Doc2Vec для классификации текстов
Всем привет,
В этой статье я покажу вам, как создать мультиклассовый классификатор для любого типа текста с помощью Fasttext и Doc2Vec. Этот документ станет руководством для тех, кто будет работать с классификатором текстов впервые. Начиная с загрузки данных, я буду следовать шагам очистки данных, подготовки данных для обучения и построения модели. Наконец, я закончу свою статью, сделав прогнозы для цели. Если вы готовы, давайте начнем с загрузки данных!
Загрузить данные
Прежде..
Классификация новостей (несбалансированные классы) — НЛП
Обработка естественного языка, машинное обучение, TF-IDF, набор слов, разреженные векторы, spaCy, глубокое обучение, Doc2Bow, Keras
1. Введение
Репозиторий Github Проект с Miguel Payà
Обработка естественного языка (NLP) — это область искусственного интеллекта, которая помогает компьютерам понимать, интерпретировать человеческий язык и манипулировать им. NLP занимается исследованием вычислительно эффективных механизмов общения человека с машиной с использованием..
Подход к классификации текста с использованием векторного пространственного моделирования (Doc2Vec) и PCA
Предположим, вам дали много обзоров фильмов с положительными и отрицательными тегами. Теперь, если вам нужно разработать какой-то автоматический алгоритм, который определит, является ли недавно написанный обзор положительным или отрицательным, как вы продвигаетесь к простейшему возможному подходу?
Определенно вам придется применить стандартные методы классификации ML (из постановки задачи легко понять, что это проблема классификации). Но здесь проблема в кусках текстовых данных. Это не..
50 оттенков текста - использование обработки естественного языка (NLP)
«На пути к человеческому пониманию текстов / языков компьютерами»
21 июня 2018 года в Buildo компания Data Science Milan организовала мероприятие на модную тему: Обработка естественного языка (NLP). В настоящее время мы нашли множество приложений НЛП, таких как машинный перевод (переводчик Google), ответы на вопросы (чат-бот), поиск в Интернете и приложениях (Amazon), лексическая семантика (Тезаурус), анализ настроений (Cambridge Analytica), генератор естественного языка (бот..
Вопросы по теме 'doc2vec'
получение представления абзацев для невидимых абзацев в doc2vec
Я хотел бы использовать модель genism doc2vec для задачи классификации. Однако похоже, что реализация doc2vec в gensim требует просмотра всех документов (обучающих и тестовых) для создания словаря перед обучением модели. В противном случае вы...
411 просмотров
schedule
04.04.2022
Подходит ли Doc2Vec для анализа настроений?
Я читал более современные сообщения о классификации (анализе) настроений, такие как this .
Взяв в качестве примера набор данных IMDB, я обнаружил, что получаю аналогичный процент точности при использовании Doc2Vec (88%), однако гораздо лучший...
2537 просмотров
schedule
10.04.2024
Doc2vec Gensim: вложения слов не обновляются каждую эпоху
Я использую модель Gensim Doc2vec для обучения векторов документов. Я распечатал изображения для слова «хорошо», но я нашел каждую эпоху, я обнаружил, что не обновляется! Пока я распечатывал изображения для документа с идентификатором «3», каждая...
808 просмотров
schedule
23.12.2022
Как использовать doc2vec с фразами?
я хочу иметь фразы в doc2vec, и я использую gensim.phrases. в doc2vec нам нужен помеченный документ для обучения модели, и я не могу пометить фразы. как я могу это сделать?
вот мой код
text = phrases.Phrases(text)
for i in range(len(text)):...
999 просмотров
schedule
03.07.2022
Сходство документов: встраивание векторов по сравнению с производительностью Tf-Idf?
У меня есть коллекция документов, каждый из которых со временем быстро растет. Задача - найти похожие документы в любой момент времени. У меня есть два возможных подхода:
Вложение вектора (word2vec, GloVe или fasttext) с усреднением по...
8076 просмотров
schedule
18.09.2022
Почему косинусное сходство предварительно обученной модели fasttex велико между двумя сентентами, которые вообще не относительны?
Мне интересно узнать, почему предварительно обученная «модель быстрого текста» с вики (корейский), похоже, не работает! :(
model = fasttext.load_model ("./ fasttext / wiki.ko.bin")
model.cosine_similarity («테스트 테스트 이건 테스트 문장», «지금 아무 관계 없는 글...
305 просмотров
schedule
29.03.2022
Изучает ли Doc2Vec представления тегов?
Я использую теги Doc2Vec в качестве уникального идентификатора для своих документов, каждый документ имеет свой тег и не имеет семантического значения. Я использую теги для поиска определенных документов, чтобы вычислить сходство между ними....
4535 просмотров
schedule
10.06.2024
RuntimeError: снимите разблокированный замок во время обучения doc2vec
Я получаю следующую ошибку при обучении модели doc2vec в блокноте Jupyter на OS X. Ошибка воспроизводима (хотя конкретный поток, в котором она возникает, изменяется) для моего текущего набора данных, хотя я успешно обучал модели на других наборах...
593 просмотров
schedule
11.10.2022
Какая «информация» в векторах документов позволяет прогнозировать тональность?
Предсказание тональности на основе векторов документов работает довольно хорошо, как показывают примеры: https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb...
174 просмотров
schedule
14.02.2023
Как я могу улучшить косинусное сходство двух документов (предложений) в модели doc2vec?
Я создаю приложение чата НЛП на Python, используя gensim библиотеку через doc2vec модель. У меня есть жестко закодированные документы и дан набор обучающих примеров. Я тестирую модель, задавая вопрос пользователю, а затем нахожу наиболее похожие...
1915 просмотров
schedule
01.10.2022
Как удалить стоп-слова из документов в gensim?
Я создаю приложение чата NLP, используя технику Doc2Vec в Python, используя его пакет gensim . Я уже сделал токенизацию и стемминг. Я хочу удалить стоп-слова (чтобы проверить, работает ли он лучше) как из тренировочного набора, так и из вопроса,...
7063 просмотров
schedule
02.11.2022
Разница между TaggedDocument и TaggedLineDocument в gensim? и Как работать с файлами в каталоге?
Я новичок в doc2vec и хочу с его помощью классифицировать набор текстов.
Я запутался в TaggedDocument и TaggedLineDocument.
1) В чем разница между двумя? Является ли TaggedLineDocument набором TaggedDocument?
2) Если у меня есть каталог,...
1549 просмотров
schedule
22.09.2022
Почему Doc2Vec.scale_vocab () ['память'] ['словарь'] делится на 700, чтобы получить размер словарного запаса?
Из учебника по википедии Doc2Vec по адресу https://github.com/RaRe-Technologies/gensim/blob/master/docs/notebooks/doc2vec-wikipedia.ipynb
for num in range(0, 20):
print('min_count: {}, size of vocab: '.format(num),...
205 просмотров
schedule
24.07.2022
Как интерпретировать результаты кластеров после использования Doc2vec?
Я использую doc2vec для преобразования 100 лучших твитов моих последователей в векторное представление (скажем, v1 ..... v100). После этого я использую векторное представление для кластеров K-средних.
model = Doc2Vec(documents=t, size=100,...
872 просмотров
schedule
23.04.2023
Gensim Doc2vec finalize_vocab Ошибка памяти
Я пытаюсь обучить модель Doc2Vec, используя gensim с уникальными документами/метками 114M и размером словарного запаса около 3M уникальных слов. У меня есть Linux-машина Ram на 115 ГБ в Azure. Когда я запускаю build_vocab, итератор анализирует все...
836 просмотров
schedule
12.08.2022
какой минимальный размер набора данных необходим для хорошей производительности с doc2vec?
Как работает doc2vec при обучении на наборах данных разного размера? В исходном корпусе нет упоминания о размере набора данных, поэтому мне интересно, каков минимальный размер, необходимый для получения хорошей производительности от doc2vec.
3102 просмотров
schedule
05.07.2022
Как найти наиболее похожие термины/слова документа в doc2vec?
Я применил Doc2vec для преобразования документов в векторы. После этого я использовал векторы для кластеризации и вычислил 5 ближайших/наиболее похожих документов на центр тяжести каждого кластера. Теперь мне нужно найти наиболее доминирующие или...
2772 просмотров
schedule
29.01.2023
Несколько тегов для одного документа в doc2vec. TaggedDocument
Можно ли обучить модель doc2vec, в которой один документ имеет несколько тегов? Например, в обзорах фильмов
doc0 = doc2vec.TaggedDocument(words=review0,tags=['UID_0','horror','action'])
doc1 =...
2622 просмотров
schedule
11.01.2023
Маркировка предложений Gensim doc2vec
Я пытаюсь понять doc2vec и могу ли я использовать его для решения своего сценария. Я хочу пометить предложения с 1 или более тегами, используя TaggedSentences([слова], [теги]), но я не уверен, правильно ли я понимаю.
в общем, мне нужно, чтобы это...
1571 просмотров
schedule
21.05.2022
Оптимизация gensim (компилятор C и BLAS) в Window 7
Я хочу оптимизировать gensim для запуска doc2vec в Window7
[1] Компилятор C
Я установил gensim, следуя этой инструкции: https://radimrehurek.com/gensim/install.html
pip install --upgrade gensim
Однако на этой странице (...
1096 просмотров
schedule
02.03.2023