Производственная серия ML — Искаженные данные или несбалансированные данные

Определение

Набор данных с различным соотношением классов называется асимметричным набором данных. Некоторые из примеров показаны ниже

Пример

Ниже приведены 4 примера:

Компания-производитель. предположим, что вы работаете с компанией-производителем мобильных устройств, и ваша задача — выявить дефекты мобильных телефонов. но набор данных, который у вас есть, содержит очень мало примеров дефектных наборов.
Medical Diagnosis Company:медицинской компании нужно, чтобы вы выявили конкретное заболевание, но у вас очень мало примеров: 99% пациентов не имеют этого типа заболевания.
Распознавание речи. Предположим, что ваша задача состоит в обнаружении пробуждающего слова, но 96,7 % данных, которые у вас есть, не содержат определенного слова.

Более подробная информация представлена на рис. 1 ниже.

Какую метрику использовать для несбалансированных данных?

Для искаженного набора данных не лучше использовать точность, поскольку она не определяет истинную статистику, вместо этого используйте матрицу путаницы: точность и полнота.

Как показано на рисунке ниже, соотношение фактических и прогнозируемых значений называется матрицей путаницы.

Ниже приведены компоненты матрицы путаницы.

TN :ячейка, которая на самом деле не истинна, что является отрицательным прогнозом.
FN :ячейка, которая на самом деле не ложна, что является отрицательным прогнозом.
TP :ячейка, которая на самом деле истинна, что является положительным прогнозом.
FP :ячейка, которая на самом деле является ложной, что является положительным прогнозом.

Точность

Во всех примерах какой алгоритм думает о положительном, какая дробь у него правильная?

Формула показана ниже
Точность = TP / FP + TP

Отзывать

Из всех примеров, которые на самом деле являются положительными, какая часть алгоритма верна?

Отзыв = TP / FN+TP

Эти показатели более полезны, чем грубая точность. На рис. 2 показано больше изображений.

Случай, когда алгоритм предсказывает только один класс

В этих случаях показатели точности и полноты будут равны нулю. Рис-3 показывает это ниже

Связь точности и отзыва — оценка F1

Допустим, у вас есть две модели производительности, как показано ниже на рис. 4 ниже. Как сравнить производительность обоих. Оценка F1 — лучший способ сравнить производительность, сочетая точность и полноту.

F1 – это среднее гармоническое между точностью и полнотой.

Проблема с несколькими классами также показана на рис. 5. Оценка F1 помогает определить приоритет тега метки классификации для работы.