Есть много других факторов... но важным (при определении подходящего соотношения и объема обучающих данных) является ожидаемое распределение каждой категории сообщений (положительные, нейтральные, отрицательные) в реальном мире. По сути, хорошей базой для обучающей выборки (и контрольной выборки) является
- [качественно] как можно более репрезентативным для всего «населения»
- [количественно] достаточно большой, чтобы измерения, сделанные из таких наборов, были статистически значимыми.
Эффект [относительного] изобилия определенной категории сообщений в обучающей выборке трудно определить; в любом случае это меньший фактор — или, скорее, тот, который очень чувствителен к другим факторам. Повышение точности классификатора в целом или в отношении конкретной категории, как правило, больше связано с конкретной реализацией классификатора (например, является ли он байесовским, каковы маркеры, устраняются ли маркеры шума, является ли близость фактор, используем ли мы биграммы и т. д.), чем чисто количественные характеристики обучающей выборки.
Хотя вышеизложенное в целом основано на фактах, но умеренно полезно для выбора размера и состава обучающей выборки, существуют способы определения постфактум, когда был получен адекватный размер и состав обучающих данных. поставляются.
Один из способов добиться этого — ввести контрольный набор, т. е. набор, помеченный вручную, но не являющийся частью обучающего набора, и измерять для разных прогонов тестов с различными подмножествами обучающего набора отзыв и точность, полученные для каждой категории (или некоторые аналогичные измерения точности), для этого классификация контрольного набора. Когда эти измерения не улучшаются и не ухудшаются, помимо того, что является статистически репрезентативным, размер и состав тренировочного [под] набора, вероятно, являются правильными (если только это не переобучающий набор :-(, но это совсем другая проблема. .. )
Этот подход подразумевает, что используется обучающая выборка, размер которой может в 3-5 раз превышать размер эффективно необходимой обучающей подгруппы, так что можно случайным образом (в каждой категории) построить множество различных подмножеств для различных тестов.
person
mjv
schedule
13.01.2010