Определение
Набор данных с различным соотношением классов называется асимметричным набором данных. Некоторые из примеров показаны ниже
Пример
Ниже приведены 4 примера:
- Компания-производитель. предположим, что вы работаете с компанией-производителем мобильных устройств, и ваша задача — выявить дефекты мобильных телефонов. но набор данных, который у вас есть, содержит очень мало примеров дефектных наборов.
- Medical Diagnosis Company:медицинской компании нужно, чтобы вы выявили конкретное заболевание, но у вас очень мало примеров: 99% пациентов не имеют этого типа заболевания.
- Распознавание речи. Предположим, что ваша задача состоит в обнаружении пробуждающего слова, но 96,7 % данных, которые у вас есть, не содержат определенного слова.
Более подробная информация представлена на рис. 1 ниже.
Какую метрику использовать для несбалансированных данных?
Для искаженного набора данных не лучше использовать точность, поскольку она не определяет истинную статистику, вместо этого используйте матрицу путаницы: точность и полнота.
Как показано на рисунке ниже, соотношение фактических и прогнозируемых значений называется матрицей путаницы.
Ниже приведены компоненты матрицы путаницы.
- TN :ячейка, которая на самом деле не истинна, что является отрицательным прогнозом.
- FN :ячейка, которая на самом деле не ложна, что является отрицательным прогнозом.
- TP :ячейка, которая на самом деле истинна, что является положительным прогнозом.
- FP :ячейка, которая на самом деле является ложной, что является положительным прогнозом.
Точность
Во всех примерах какой алгоритм думает о положительном, какая дробь у него правильная?
Формула показана ниже
Точность = TP / FP + TP
Отзывать
Из всех примеров, которые на самом деле являются положительными, какая часть алгоритма верна?
Отзыв = TP / FN+TP
Эти показатели более полезны, чем грубая точность. На рис. 2 показано больше изображений.
Случай, когда алгоритм предсказывает только один класс
В этих случаях показатели точности и полноты будут равны нулю. Рис-3 показывает это ниже
Связь точности и отзыва — оценка F1
Допустим, у вас есть две модели производительности, как показано ниже на рис. 4 ниже. Как сравнить производительность обоих. Оценка F1 — лучший способ сравнить производительность, сочетая точность и полноту.
F1 – это среднее гармоническое между точностью и полнотой.
Проблема с несколькими классами также показана на рис. 5. Оценка F1 помогает определить приоритет тега метки классификации для работы.