СЕРИЯ ПО ТЕОРИЯМ

Отрицательный R2: Где вы ошиблись?

Статистический пример

Недавно я выполнил задачу машинного обучения и получил отрицательную метрику оценки R2 в своем тестовом наборе.

"Ждать! Разве R2 не… в квадрате? Разве он не должен быть между 0 и 1? Что я сделал?

Изначально я был очень обеспокоен состоянием моей задачи по машинному обучению. После пары минут гугления я остался лишь слегка обеспокоен состоянием моей задачи машинного обучения. В любом случае, я получил хороший обзор того, что означает отрицательное значение R2 и как его можно получить случайно. Эта статья дает более полное представление о математическом происхождении статистики, чтобы помочь прояснить значение этого результата.

Получение отрицательного значения R2 указывает на то, что прогнозируемые значения вашей модели работают хуже, чем если бы вы использовали среднее значение в качестве прогнозируемого значения. Ваш собственный поиск в Google может дать аналогичные утверждения. Здесь я объясню, почему на примере данных.

Зачем использовать R2?

R2 — коэффициент детерминации, пропорция вариации результата, объясняемая входными данными. Он часто используется в качестве показателя производительности в задачах регрессии, прогнозирующих непрерывные результаты.

В классической линейной регрессии значения R2 связаны между 0 и 1. Эта статья дает хорошее обоснованное объяснение того, почему. Однако короткая версия заключается в том, что доказательство справедливо для обычного подхода к моделированию методом наименьших квадратов (OLS) при включении точки пересечения. Если вы используете нелинейную модель (как это делают многие из нас в сообществе специалистов по данным), выбросьте эти ограничения в окно. Теперь границы нашего коэффициента детерминации меняются с отрицательной бесконечности на 1.

На самом деле ведутся разумные споры о том, следует ли вообще использовать R2 для нелинейных моделей. Аргумент основан на том факте, что R2 не является обычно надежным предиктором соответствия модели, что продемонстрировано Spiess & Neumeyer в Журнальной статье 2010 года.

Между прочим, R2 по своей сути также не является полезным в качестве показателя согласия для OLS, по крайней мере, до тех пор, пока предположение о линейности не будет определено как действительное посредством оценки невязок модели.

В любом случае, хотя R2 не следует использовать в качестве единственной метрики производительности, нельзя отрицать, что R2 может быть полезен для оценки производительности модели в сочетании с другими метриками, такими как MAE (средняя абсолютная ошибка), MSE (среднеквадратичная ошибка). , RMSE (среднеквадратичная ошибка) или, возможно, скорректированный R2.

Что такое Р2?

В классической регрессии цель состоит в том, чтобы предсказать результат. Изменение этой переменной результата может быть представлено тремя значениями: SSR, SSE и SST. Это суммы квадратов вариаций в выборке. Возведение членов в квадрат избавляет нас от сложностей с отрицательными значениями. Различные псевдонимы SSR, SSE и SST становятся особенно запутанными, поэтому, пожалуйста, признайте, что я сделал все возможное, чтобы собрать некоторые общие альтернативные соглашения об именах в одном месте. В дальнейшем я буду использовать сокращения только из двух левых столбцов в таблице ниже.

В модели OLS SSR + SSE = SST. Всегда.

Причина, по которой эти статистические данные актуальны, заключается в том, что коэффициент детерминации является функцией SSE и SST.

Используя выборку из n наблюдений, мы можем рассчитать фиолетовое значение SSE как сумму квадратов разностей между истинным результатом (yᵢ) и подогнанным/предсказанным результатом (ŷᵢ) для наблюдения i.

Используя n наблюдений, мы также можем рассчитать синее значение SST как сумму квадратов разностей между истинным результатом (yᵢ) и выборочным средним значением результатов (ȳ).

После вычисления SSE и SST мы можем вычислить желаемую метрику R2.

Отрицательный пример R2

Давайте используем игрушечный набор данных из 10 наблюдений. Каждое наблюдение имеет подогнанную/предсказанную оценку по модели, и у каждого также есть истинный результат, как показано в таблице ниже. Актуальная модель не будет предоставлена ​​по 2 причинам:

А) Я придумал.

Б) Этот показатель производительности можно применять к подобранным значениям практически для любой модели, поэтому он не имеет отношения к вопросу о том, почему R2 может принимать отрицательные значения.

Обратите внимание, что среднее значение подобранных значений и среднее значение истинных значений совпадают. 5. При равенстве центральных тенденций, возможно, эта модель является разумным предиктором наблюдений?

Значения из таблицы представлены ниже. Предположим, что черные точки представляют истинные значения результатов. Синие точки представляют собой прогнозируемые (также известные как подобранные) значения для результата нашей модели. Общая вариация каждого наблюдения может быть разделена, как описано. Для ясности на рисунке ниже показано отдельно только одно наблюдение. Общая вариация (учитываемая SST) делится на две величины: вариация, объясняемая соответствием модели (SSR), и вариация, объясняемая ошибкой в ​​этом подобранном значении (SSE).

Для каждой метрики, SSE и SST, существуют различия и квадраты этих различий, показанные в соответствующих столбцах. SSE, ошибка суммы квадратов, для модели составляет 86,5, а SST, общая сумма квадратов, составляет 67,5.

Поскольку SST ‹ SSE, это указывает на то, что если бы мы отказались от нашей модели и просто предсказали среднее истинное значение (5,0) в качестве статистики предсказания для каждой точки, эта оценка работала бы лучше, чем наша текущая модель, производящая подобранные значения. Хотя это не идеальный результат, это означает, что такая производительность не обязательно является результатом просчета. Причина, по которой R2 находится между 0 и 1 для модели МНК с точкой пересечения, заключается в том, что ее точка пересечения будет принимать среднее значение, а ее бета-коэффициент будет принимать значение 0, если невозможно получить лучшее соответствие.

После вычисления R2 из SSE и SST мы получаем округленную метрику R2, равную -0,28, что действительно отрицательно, поскольку производительность модели меньше, чем производительность, полученная с использованием только среднего значения выборки.

Таким образом, мы объяснили происхождение коэффициента детерминации, обоснование того, почему он может принимать отрицательные значения в определенных обстоятельствах, и пример, который показывает расчет для набора данных игрушек с отрицательным значением.

Если мы вернемся к моей задаче машинного обучения, которая дала ранее тревожный отрицательный результат R2, кажется, что мне нужно лишь слегка беспокоиться, потому что моя модель технически работает… это просто ужасная модель. Что ж, удачи (мне) в следующий раз.

Комментарий ниже с любыми вопросами о других показателях производительности или статистических количествах!

Как всегда, продолжайте в том же духе, несмотря на любые недавние неудачи моделей с отрицательной эффективностью.

«Неудача — еще одна ступенька к величию». - Опра Уинфри

Другие работы Кейт Уолл: