Обучающий набор - соотношение положительных/отрицательных/нейтральных предложений

Я вручную помечаю твиттер-сообщения как положительные, отрицательные, нейтральные. Я пытаюсь оценить, есть ли какая-то логика, которую можно использовать для определения обучающего набора, какая доля сообщения должна быть положительной/отрицательной и нейтральной?

Так, например. если я тренирую наивный байесовский классификатор с 1000 сообщений в Твиттере, должна ли пропорция pos : neg :neutral быть 33 % : 33 % : 33 % или должна быть 25 % : 25 % : 50 %

Логически в моей голове кажется, что я тренирую (т.е. даю больше образцов для нейтральных), что система будет лучше идентифицировать нейтральные предложения, чем положительные они или отрицательные - это правда? или мне не хватает какой-то теории здесь?

Спасибо, Рахул.


person Rahul Dighe    schedule 13.01.2010    source источник


Ответы (2)


Проблема, о которой вы говорите, известна как проблема дисбаланса. Многие алгоритмы машинного обучения плохо работают, когда сталкиваются с несбалансированными обучающими данными, то есть когда количество экземпляров одного класса значительно превышает количество экземпляров другого класса. Чтобы получить хорошее представление о проблеме и подходе к ней. Для таких методов, как наивный байес или деревья решений, всегда полезно как-то сбалансировать ваши данные, например. путем случайной передискретизации (объяснено в справочном документе). Я не согласен с предложением mjv, чтобы тренировочный набор соответствовал пропорциям в реальном мире. Это может быть уместно в некоторых случаях, но я совершенно уверен, что это не в ваших условиях. Для проблемы классификации, подобной той, которую вы описываете, чем больше различаются размеры наборов классов, тем больше у большинства алгоритмов ML будут проблемы с правильным распознаванием классов. Тем не менее, вы всегда можете использовать информацию о том, какой класс в действительности является самым большим, приняв его в качестве запасного варианта, чтобы, когда достоверность классификатора для конкретного экземпляра низка или этот экземпляр вообще не мог быть классифицирован, вы бы присвоили ему класс. самый большой класс.

Еще одно замечание: нахождение положительного/негативного/нейтрального в сообщениях Twitter кажется мне вопросом степени. Таким образом, это может рассматриваться как регрессия, а не как проблема классификации, то есть вместо схемы с тремя классами вы, возможно, захотите рассчитать оценку, которая говорит вам, насколько положительно/отрицательно сообщение.

person ferdystschenko    schedule 14.01.2010
comment
У вас есть ссылка, на которую я могу сослаться, которая может предоставить мне пример для расчета балла или теорию, стоящую за этим? - person Rahul Dighe; 14.01.2010
comment
Если вы погуглите «линейная регрессия», вы найдете множество сайтов, посвященных этому. Возможно, вы также захотите ознакомиться с этим опросом об анализе настроений (официальное название области, почти полностью посвященной проблеме вычисления того, насколько текст позитивен или негативен): cs.cornell.edu/home/llee/ . Книга находится в свободном доступе в Интернете. - person ferdystschenko; 14.01.2010

Есть много других факторов... но важным (при определении подходящего соотношения и объема обучающих данных) является ожидаемое распределение каждой категории сообщений (положительные, нейтральные, отрицательные) в реальном мире. По сути, хорошей базой для обучающей выборки (и контрольной выборки) является

  • [качественно] как можно более репрезентативным для всего «населения»
  • [количественно] достаточно большой, чтобы измерения, сделанные из таких наборов, были статистически значимыми.

Эффект [относительного] изобилия определенной категории сообщений в обучающей выборке трудно определить; в любом случае это меньший фактор — или, скорее, тот, который очень чувствителен к другим факторам. Повышение точности классификатора в целом или в отношении конкретной категории, как правило, больше связано с конкретной реализацией классификатора (например, является ли он байесовским, каковы маркеры, устраняются ли маркеры шума, является ли близость фактор, используем ли мы биграммы и т. д.), чем чисто количественные характеристики обучающей выборки.

Хотя вышеизложенное в целом основано на фактах, но умеренно полезно для выбора размера и состава обучающей выборки, существуют способы определения постфактум, когда был получен адекватный размер и состав обучающих данных. поставляются.
Один из способов добиться этого — ввести контрольный набор, т. е. набор, помеченный вручную, но не являющийся частью обучающего набора, и измерять для разных прогонов тестов с различными подмножествами обучающего набора отзыв и точность, полученные для каждой категории (или некоторые аналогичные измерения точности), для этого классификация контрольного набора. Когда эти измерения не улучшаются и не ухудшаются, помимо того, что является статистически репрезентативным, размер и состав тренировочного [под] набора, вероятно, являются правильными (если только это не переобучающий набор :-(, но это совсем другая проблема. .. )

Этот подход подразумевает, что используется обучающая выборка, размер которой может в 3-5 раз превышать размер эффективно необходимой обучающей подгруппы, так что можно случайным образом (в каждой категории) построить множество различных подмножеств для различных тестов.

person mjv    schedule 13.01.2010