Классификация текста широко используется в различных отраслях для решения бизнес-задач путем анализа текстовых данных для получения ценной информации. Однако сложная структура текстовых данных часто затрудняет эффективное извлечение значимой информации. Для этой цели используются фокусирующиеся методы обработки естественного языка (НЛП). Эти методы сосредоточены на том, как компьютеры взаимодействуют с человеческими языками, и позволяют анализировать большие объемы данных на естественном языке.

В НЛП классификация текста является распространенной задачей, целью которой является категоризация и прогнозирование класса невидимых текстовых данных с использованием контролируемого машинного обучения. Однако проблема дисбаланса классов является одной из проблем, возникающих при обучении классификатора текста. Это относится к ситуациям, когда некоторые классы имеют значительно больше выборок данных, чем другие, что приводит к смещению производительности модели. Метод фокусной потери используется для решения проблемы дисбаланса классов при классификации текста. Это обеспечивает решение путем присвоения более высоких весов неправильно классифицированным выборкам, особенно из недостаточно представленных классов. Это позволяет модели больше сосредоточиться на обучении на сложных примерах и улучшить прогнозы для этих низкообученных выборочных классов.

В этой статье обсуждаются преимущества использования потери фокуса для классификации текста по сравнению с традиционной перекрестной энтропией. Мы обсуждаем случай категоризации продуктов в логистической отрасли. Мы также показываем, почему перекрестная энтропия не работает в определенных сценариях, и объясняем, как потеря фокуса преодолевает свои ограничения, обеспечивая улучшенные результаты в задачах классификации текста.

Постановка задачи

Логистика позволяет осуществлять транспортировку различных видов продукции от продавцов к получателям. Эти продукты разделены на разные категории. Дисбаланс классов может возникнуть при категоризации продуктов, когда существует значительная разница в количестве продуктов в каждой категории. Это приводит к недопредставленным категориям и предвзятой модели, которая имеет тенденцию предсказывать товары, принадлежащие к перепредставленной категории. Это создает проблемы для управления запасами, выполнения заказов и доставки, которые зависят от точной категоризации продуктов.

При обучении на несбалансированных наборах данных модели с большей вероятностью относят продукты к первичной (перепредставленной) категории, даже если они должны принадлежать к вторичной или третичной (недостаточно представленной) категории.

Чтобы устранить дисбаланс классов, часто используются такие методы, как передискретизация, недостаточная выборка и функции взвешенных потерь. Фокусные потери — это один из таких подходов, цель которого — сбалансировать вклад каждого класса в общую функцию потерь. Присваивая более высокие веса недостаточно представленным классам, потеря фокуса побуждает модель уделять приоритетное внимание изучению этих классов, уменьшая влияние перепредставленного класса. Это помогает улучшить способность модели точно классифицировать продукты, как и в случае с логистикой.

Мы обсуждаем этот вопрос в контексте классификации продукта по данному описанию/названию продукта в соответствующую категорию. В таблице 1 ниже приведены некоторые примеры из нашего набора данных.

Ниже приведены некоторые классы образцов большинства и меньшинства в нашем наборе данных.

Большинство выбранных классов: Одежда и аксессуары, сумки и багаж, красота, косметика и туалетные принадлежности, обувь, дом и мебель, ювелирные изделия, кухня, мобильные телефоны, планшеты и аксессуары.

Выбранные меньшинства классы: Спорт и фитнес, опасные и другие товары, строительные материалы, оборудование и инструменты (включая автомобильные), книги и канцелярские товары, автомобили и аксессуары (запчасти), бакалея, ноутбуки и электроника. Магазин периферийных устройств, товаров для малышей и игрушек.

Функции потерь

Функции потерь — это математические уравнения, которые объясняют отклонение между фактическими и прогнозируемыми значениями. Он оценивает производительность алгоритма в наборе данных. Чем выше значения потерь, тем значительнее частота ошибок. Цель состоит в том, чтобы минимизировать функцию потерь. Функция потерь помогает изучить обучаемые параметры, веса и смещения.

Перекрестная потеря энтропии

Перекрестная энтропийная потеря, также называемая логарифмической потерей или логистической потерей, представляет собой широко используемую функцию потерь в задачах классификации для измерения того, насколько хорошо прогнозируемые вероятности соответствуют истинным вероятностям. Он измеряет разницу между двумя распределениями вероятностей, обычно между истинным распределением и прогнозируемым или предполагаемым распределением. Перекрестная энтропийная потеря используется для обновления весов модели во время обучения с целью минимизации потерь. Меньшая потеря указывает на превосходную производительность модели, а потеря перекрестной энтропии, равная 0, представляет совершенство.

Ниже приведены некоторые случаи, когда потеря перекрестной энтропии не работает должным образом:

· Классовый дисбаланс может внести в процесс предвзятость. Когда примеры классов большинства доминируют над функцией потерь и градиентным спуском, модель имеет тенденцию становиться более уверенной в прогнозировании класса большинства, игнорируя при этом классы меньшинства. Чтобы решить эту проблему, можно использовать сбалансированную перекрестную энтропию.

· Перекрестная энтропийная потеря не позволяет провести различие между простыми и сложными примерами. Сложные примеры — это те, в которых модель допускает существенные ошибки, тогда как простые примеры легко классифицировать. В результате потеря перекрестной энтропии не позволяет уделять больше внимания жестким образцам.

Сбалансированная перекрестная энтропийная потеря:

Чтобы смягчить проблемы, связанные с дисбалансом классов, сбалансированная перекрестная энтропия добавляет гиперпараметр или весовой коэффициент к каждому классу и обозначается α[0,1]. α — частота обратного класса или гиперпараметр, который определяется путем перекрестной проверки. α заменяет фактический термин метки в уравнении перекрестной энтропии. Чтобы повысить ясность обозначений, мы устанавливаем параллельное определение для α, аналогично тому, как мы определили p_t. Следовательно, мы обозначаем α-сбалансированную кросс-энтропийную потерю следующим образом:

Проблема дисбаланса классов решается с помощью сбалансированной кросс-энтропии, но она не позволяет различать сложные и простые примеры. Этот вопрос решается за счет потери фокуса.

Очаговая потеря

Цель потери фокуса — улучшить производительность модели на сложных примерах, сосредоточив внимание на ее ошибках, а не просто полагаясь на уровень уверенности при прогнозировании простых примеров. Это улучшает обработку моделью сложных примеров за счет определения приоритета ошибок вместо того, чтобы полагаться исключительно на уверенность в предсказании простых примеров. Это достигается за счет понижения веса — метода, который уменьшает влияние простых примеров на функцию потерь, тем самым акцентируя внимание на сложных примерах. Понижение веса применяется путем введения коэффициента модуляции (1 − pt) ^γ к перекрестным энтропийным потерям с настраиваемым параметром фокусировки γ ≥ 0.

где γ (гамма) — параметр фокусировки или параметр релаксации, который необходимо настроить с помощью перекрестной проверки. Он контролирует степень внимания к сложным, неправильно классифицированным примерам во время обучения нейронной сети. Большее значение γ подчеркивает неправильно классифицированные примеры, а меньшее значение γ приводит к более сбалансированному сосредоточению внимания на простых и сложных примерах.

На изображении ниже показано, как ведет себя потеря фокуса при различных значениях γ.

Потеря фокуса визуализируется для нескольких значений γ ∈ [0, 5] на рисунке 5 выше. В статье авторы отметили два свойства потери фокуса.

(1) Если пример неправильно классифицирован и p_t мал, коэффициент модуляции близок к 1 и потери не затрагиваются. При p_t → 1 коэффициент становится равным 0, и потери для хорошо классифицированных примеров уменьшаются.

(2) Параметр фокусировки γ плавно регулирует скорость снижения веса простых примеров. Когда γ = 0, потеря фокуса эквивалентна перекрестной энтропии, а по мере увеличения γ эффект модулирующего фактора также увеличивается.

α-сбалансированная потеря фокуса

Этот вариант сочетает в себе характеристики весового коэффициента α (из идеи сбалансированной кросс-энтропийной потери) и фокусирующего параметра γ, что в дальнейшем приводит к повышению точности по сравнению с несбалансированной формой. α-сбалансированная потеря фокуса устраняет дисбаланс классов путем введения двух компонентов потери фокуса и весового коэффициента α. Потеря фокуса уменьшает вклад потерь от хорошо классифицированных примеров, что позволяет модели сосредоточиться на трудных задачах. классифицировать примеры. Параметр фокусировки γ плавно регулирует скорость снижения веса простых примеров. αиспользуется для корректировки весов, присвоенных различным классам. На практике αможет быть установлен по частоте обратного класса или рассматриваться как гиперпараметр для установки путем перекрестной проверки. Значение α масштабирует и уравновешивает функцию потерь и дает немного повышенную точность. над неα-сбалансированной формой.

Благодаря использованию качеств α и γ, α-сбалансированная потеря фокуса показала превосходные результаты в нашем исследовании.

Интуитивное понимание потери фокуса

В этом разделе мы понимаем, как потеря фокуса может придать больший вес недостаточно представленным и трудно классифицируемым выборкам, и наоборот. Мы делаем это, беря образцы двух типов классов и вычисляя значения различных функций потерь для этих образцов. Это помогает нам понять, как потеря фокуса может сосредоточиться на недостаточно представленных и жестких образцах.

СЛУЧАЙ 1: Простые и большинство классов

Простой пример (класс мажоритарной выборки) — это случай, когда мы предполагаем, что выборка правильно классифицирована, поэтому фактический класс равен 1, а прогнозируемый класс также равен 1.

Передний план с x = 0,9. Здесь выборка правильно классифицирована: фактический класс (y) и прогнозируемый класс равны 1. Вероятность положительного класса обозначается как «p = 0,9». Поскольку это пример класса большинства, мы можем рассматривать его как пример переднего плана. Здесь мы принимаем альфа = 0,25 и гамма = 2 в качестве фиксированных параметров.

CE = -(1) log (0,9) = 0,045

FL = -(0,25) *(1–0,9) ² log (0,9) = 0,0039

СЛУЧАЙ 2: Примеры жесткого класса и меньшинства

Сложный пример (класс выборки меньшинства), где мы предполагаем, что выборка неправильно классифицирована, поэтому фактический класс равен 1, а прогнозируемый класс равен 0.

Здесь выборка неправильно классифицирована: фактический класс (y) равен 1, а прогнозируемый класс равен 0. Вероятность положительного класса обозначается как «p = 0,1». Поскольку это пример класса меньшинства, мы можем рассматривать его как пример переднего плана.

CE = -(1) log (0,1) = 1

FL = -(1–0,25) * (1–0,1) ² log (0,1) = 0,6075

Как и в приведенных выше случаях, мы рассчитываем соотношение двух значений потерь для сравнения.

1. Коэффициент потерь в СЛУЧАЕ 1: — CE/FL ~ 12

2. Коэффициент потерь в СЛУЧАЕ 2: — CE/FL ~ 2.

В случае 1 соотношение CE/FL равно 12, что означает, что перекрестная энтропийная потеря в 12 раз превышает фокальную потерю. Это указывает на то, что потеря перекрестной энтропии придает значительно большую важность или вес простому примеру, который правильно классифицирован. С другой стороны, потеря фокуса снижает эффективность этого простого примера, что приводит к гораздо более низкому значению потери фокуса.

В случае 2 соотношение CE/FL равно 2, что означает, что потеря перекрестной энтропии в 2 раза превышает потерю фокуса. Это указывает на то, что потеря перекрестной энтропии по-прежнему придает более высокий вес сложному примеру, даже если он неправильно классифицирован. Потеря фокуса, с ее эффектом уменьшения веса на простых примерах, уменьшает вклад потерь простого примера, что приводит к более низкому значению потери фокуса по сравнению с потерей перекрестной энтропии.

Эксперименты и оценка

Здесь мы проведем несколько экспериментов по проблеме классификации продуктов, как описано ранее. Мы трижды обучаем классификатор на основе нейронной сети с помощью функций кросс-энтропии, сбалансированной кросс-энтропии и фокусных потерь (α-сбалансированных) и вычисляем показатели производительности. Мы используем ту же архитектуру модели и одни и те же наборы данных для обучения и тестирования. Функции потерь в трех сценариях различны. В следующей таблице продемонстрирована эффективность потери фокуса по сравнению с функциями перекрестной энтропии и сбалансированными функциями потери перекрестной энтропии.

В этих экспериментах мы использовали α-сбалансированный вариант потери фокуса. Значения гиперпараметров потери фокуса мы нашли экспериментальным путем. Гиперпараметр α устанавливается путем взятия обратной частоты классов меньшинств, а γ=2 дает наиболее эффективные показатели в наших экспериментах.

В целом, это исследование продемонстрировало эффективность потери фокуса для решения проблемы дисбаланса классов, повышения производительности классов с ограниченными обучающими выборками, обеспечения гибкости в настройке процесса обучения и смягчения воздействия зашумленных данных. Используя потерю фокуса, компании могут создавать более точные и надежные классификаторы текста, чтобы извлекать ценную информацию и более эффективно принимать обоснованные решения на основе текстовых данных.

Рекомендации

[1] Фокальная потеря для обнаружения плотных объектов, Цунг-И Линь, Прия Гоял, Росс Гиршик, Кайминг Хе, Петр Доллар

Авторы

Асмита Бхардвадж — младший специалист по данным @Ecom Express Limited

Уман Нияз — специалист по данным @Ecom Express Limited