какой минимальный размер набора данных необходим для хорошей производительности с doc2vec?

Как работает doc2vec при обучении на наборах данных разного размера? В исходном корпусе нет упоминания о размере набора данных, поэтому мне интересно, каков минимальный размер, необходимый для получения хорошей производительности от doc2vec.


person pete the dude    schedule 30.08.2017    source источник


Ответы (1)


Ряд вещей был назван «doc2vec», но, кажется, чаще всего он относится к технике «Вектор абзаца» от Ле и Миколова.

В исходной статье 'Paragraph Vector' описывается его оценка на трех наборах данных:

  • Stanford Sentiment Treebank: 11825 предложений обзоров фильмов (которые были разбиты на 239 232 фразы-фрагменты по несколько слов каждая).
  • «IMDB Dataset»: 100 000 обзоров фильмов (часто по несколько сотен слов каждый).
  • Абзацы "фрагментов" результатов поиска: 10 000 000 абзацев, собранные из 10 лучших результатов поиска Google по каждому из 1000000 самых частых запросов.

Первые два общедоступны, поэтому вы также можете просмотреть их общий размер в словах, типичных размерах документов и словарях. (Обратите внимание, однако, что никто не смог полностью воспроизвести результаты классификации настроений в этом документе на любом из этих первых двух наборов данных, что подразумевает некоторую отсутствующую информацию или ошибку в их отчетах. Можно приблизиться к набору данных IMDB.)

В дополнительном документе этот алгоритм применялся для выявления тематических взаимосвязей в наборах данных:

  • Википедия: 4 490 000 основных текстов статей
  • Arxiv: 886 000 академических текстов, извлеченных из PDF-файлов.

Таким образом, корпуса, использованные в этих двух ранних статьях, варьировались от десятков тысяч до миллионов документов, а размеры документов - от словосочетаний из нескольких слов до статей из тысяч слов. (Но в этих работах не обязательно смешивались документы разного размера.)

В общем, методы word2vec / вектор-абзац выигрывают от большого количества данных и разнообразия контекстов слов. Я бы не ожидал хороших результатов без хотя бы десятков тысяч документов. Документы, объем которых превышает несколько слов, работают намного лучше. Результаты может быть труднее интерпретировать, если документы совершенно разных по размеру или виду смешиваются в одном обучении - например, при смешивании твитов и книг.

Но вам действительно нужно оценить это со своим корпусом и целями, потому что то, что работает с некоторыми данными, для некоторых целей, может быть неприменимо для очень разных проектов.

person gojomo    schedule 30.08.2017
comment
@gojomo У меня есть обучающие данные из 230 документов, и я получаю 72% -ную точность. Какие меры я могу предпринять, чтобы повысить точность? - person Rajat; 22.10.2018
comment
Это крошечный набор данных - менее 1/100 размера самых маленьких наборов данных в исходной статье «Вектор абзаца». Итак, основная рекомендация: собирайте больше данных. Или, возможно, использовать какой-нибудь другой алгоритм, который не так требователен к данным. Но это также следует обсудить в вашем собственном вопросе (stackoverflow.com/questions/52876014/), не добавленный здесь к более старому не очень связанному вопросу. - person gojomo; 22.10.2018