Модель машинного обучения (ML), как правило, работает лучше, когда в ней достаточно данных и метка сбалансированного класса.

Несбалансированные текстовые данные означают неравномерное распределение меток классов в наборе данных. Неравномерное распределение может происходить в любом соотношении (1:10, 1:100 и т. д.). Такое асимметричное распределение меток классов в наборе данных приводит к плохой эффективности классификации/прогнозирования модели ML. Низкая производительность модели ML связана с неспособностью модели хорошо обобщать метки класса меньшинства.

Фактически, большая часть реального набора данных имеет метки классов, которые распределены неравномерно, и часто класс меньшинства более важен, например, обнаружение кликбейта, спама. Такой несбалансированный набор данных создает проблемы при построении, оценке и обучении модели машинного обучения. Ниже приведен пример некоторых общедоступных наборов несбалансированных текстовых данных.

В случае спама — набор данных для ветчины: в метке класса «Спам» текст содержит использование формального стиля разговора, длина текста немного длинная и не содержит коротких форм, таких как LOL, ROLF и даже смайлики; В отличие от текста класса Ham.
В случае кликбейта — набор данных Not-Clickbait:В метке класса Clickbait текст имеет короткую, привлекательную, запоминающуюся строку и часто содержит прилагательные; В отличие от текста, не являющегося кликбейтом.

Таким образом, обучение этого набора данных Imbalance Spam, Clickbait на стандартной модели машинного обучения наряду с определенным уровнем разработки функций может обеспечить превосходную производительность. Но это не относится к другим задачам классификации текста, таким как субъективная/объективная классификация, анализ эмоций или анализ настроений в Твиттере.Кроме того, иногда гораздо сложнее решить задачу разработки признаков.

Для устранения дисбаланса классов используется несколько методов. Я перечислил некоторые недостатки, связанные с этими методами, ниже.

1. Метка класса меньшинства передискретизации:

Чтобы справиться с дисбалансом данных, очевидно, что нужно собрать больше данных, но обратная сторона заключается в том, что аннотация/маркировка данных трудоемка и занимает слишком много времени. Кроме того, существует риск потенциальных человеческих предубеждений, которые могут пролезть при маркировке, и с этим необходимо должным образом бороться.

2. Метка класса недостаточная выборка:

Удаление точек данных из меток большинства классов может привести к потере наиболее репрезентативных образцов, которые наиболее важны для определения этой маркировки большинства классов. Решение об удалении выборок данных из метки большинства классов зависит от размера набора данных и распределения меток классов.

3. Генерация синтетических данных:

Синтетически сгенерированные образцы данных должны поступать из того же распределения, что и наш исходный набор данных, иначе вы не можете ожидать разумного прогноза от модели. Кроме того, вновь сгенерированные текстовые данные должны быть репрезентативными для соответствующей метки класса, в противном случае может возникнуть риск добавления атрибутивной предвзятости.

Для нетекстовых данных обычно SMOTE (метод передискретизации синтетического меньшинства) в основном использует алгоритм ближайших соседей для создания этих искусственных точек данных, хотя существует несколько таких вариантов. В частности, для текста можно использовать несколько методов, которые упоминаются в моем другом посте на тему Увеличение данных для текста.

Также не стоит стремиться к идеально сбалансированным данным для обучения. Учитывая характер большинства моделей машинного обучения и набор данных реального мира, важно найти правильный баланс, корректируя эти компромиссы и находя правильное соответствие.

Ссылка:

Кравчик, Б. (2016). Обучение на несбалансированных данных: открытые проблемы и будущие направления. Прогресс в области искусственного интеллекта. https://doi.org/10.1007/s13748-016-0094-0