Интуиция за счет потерь журнала

В машинном обучении проблема классификации относится к прогнозному моделированию, когда метку класса необходимо предсказать для данного наблюдения (записи). Хотя входные данные (характеристики) состоят из непрерывных или категориальных переменных, выходные данные всегда являются категориальной переменной. Например, на основе входных данных, таких как информация о погоде (влажность, температура, облачно / солнечно, скорость ветра и т. Д.) И время года, предсказать, будет ли сегодня «дождь» или «не дождь» (выходная переменная). в вашем городе. Другой пример, основанный на содержании электронной почты и информации об отправителе, предсказать, является ли это «спам» или «не спам» (также известный как «ветчина»).

Потеря журнала - один из основных показателей для оценки эффективности задачи классификации. Но что это концептуально означает? Когда вы гуглите этот термин, вы легко получаете хорошие статьи и блоги, которые непосредственно углубляются в задействованную математику. Тем не менее, я планирую использовать здесь другой подход - поговорить об интуиции, лежащей в основе метрики, а затем предоставить формулу, используемую для расчета метрики.

Помните, что есть еще один важный показатель, который активно используется для оценки эффективности алгоритма классификации - показатель ROC-AUC. Когда у вас будет четкое представление об оценке потерь журнала, вы можете просмотреть другой мой блог Интуиция, лежащая в основе оценки ROC-AUC, в частности, контраст между двумя показателями.

Этот блог пытается ответить на следующие вопросы.

1. Что такое вероятность предсказания?

2. Что концептуально означает потеря журнала?

3. Как рассчитывается значение логарифма потерь?

4. Как рассчитывается оценка потерь модели?

5. Как интерпретировать оценку потерь журнала?

Что такое вероятность прогноза?

Алгоритмы двоичной классификации сначала предсказывают вероятность того, что запись будет отнесена к классу 1, а затем классифицируют точку данных (запись) по одному из двух классов (1 или 0) на основе того, пересекла ли вероятность пороговое значение, которое обычно устанавливается. по умолчанию 0,5.

Итак, прежде чем предсказывать класс записи, модель должна спрогнозировать вероятность того, что запись будет отнесена к классу 1. Помните, что именно от этой вероятности предсказания записи данных зависит значение log-loss.

Что концептуально означает потеря журнала?

Log-loss указывает, насколько близка вероятность предсказания к соответствующему фактическому / истинному значению (0 или 1 в случае двоичной классификации). Чем больше прогнозируемая вероятность отклоняется от фактического значения, тем выше значение логарифма потерь.

Рассмотрим проблему классификации спама и радиолюбителей для электронных писем. Давайте представим класс спама как 1, а класс радиолюбителей как 0. Давайте рассмотрим спам-электронное письмо (фактическое значение = 1) и статистическую модель, которая предсказывает электронное письмо как спам с вероятностью 1. Поскольку вероятность предсказания была совсем не исключительной. фактическое значение 1, значение логарифма потерь, связанное с предсказанием наблюдения, равно 0, что указывает на отсутствие расхождения / ошибки вообще. (На самом деле, значение логарифма потерь достаточно ничтожно, чтобы его можно было рассматривать как 0 для всех целей.) Мы обсудим расчет позже, когда мы установим концептуальное понимание этого термина.

Рассмотрим еще одно спам-письмо, прогнозируемое с вероятностью 0,9. Вероятность прогноза модели на 0,1 отличается от фактического значения 1, и, следовательно, значение логарифма потерь, связанное с прогнозом, больше нуля (точно, 0,105).

А теперь давайте посмотрим на обычное электронное письмо. Модель предсказывает его как спам с вероятностью 0,2, что является еще одним способом сказать, что модель будет классифицировать его как любительский (при условии, что порог вероятности по умолчанию равен 0,5). Абсолютная разница между вероятностью предсказания и фактическим значением, равным 0 (так как это нормально), составляет 0,2, что больше, чем то, что мы наблюдали в предыдущих двух наблюдениях. Значение логарифма потерь, связанное с прогнозом, составляет 0,223.

Обратите внимание, как значение логарифма потерь более плохого прогноза (дальше от фактического значения) выше, чем у лучшего прогноза (ближе к фактическому значению).

Теперь предположим, что существует набор из 5 различных спам-писем, прогнозируемых с широким диапазоном вероятностей (спама) - 1,0, 0,7, 0,3, 0,009 и 0,0001. Теперь вы, должно быть, думаете, как спам-электронное письмо может быть предсказано как спам с такой вероятностью 0,0001. Давайте подыграем и предположим, что обученная статистическая модель не идеальна и, следовательно, выполняет (действительно) плохую работу по последним трем наблюдениям (и, вероятно, классифицирует их как любительские, поскольку их вероятности прогнозов ближе к 0, чем к 1. ). Обратите внимание, как кажется, что значение логарифмических потерь экспоненциально (а не линейно) возрастает по мере того, как наблюдение прогнозируется дальше от фактического значения 1.

Фактически, если бы мы предсказывали спам-сообщения со всеми возможными вероятностями предсказания от 0 до 1, график выглядел бы следующим образом. Чем ниже вероятность предсказания истинного 1 наблюдения, тем выше его значение логарифма потерь.

Точно так же для любительских писем, прогнозируемых на основе широкого диапазона вероятностей, график будет выглядеть следующим образом, зеркально отображая приведенный выше график. Чем выше вероятность предсказания истинного нулевого наблюдения, тем выше значение логарифмических потерь.

Подводя итог, можно сказать, что чем дальше вероятность предсказания от фактического значения, тем выше значение логарифмических потерь.

При обучении модели классификации мы хотели бы, чтобы наблюдение предсказывалось с вероятностью, максимально приближенной к фактическому значению (0 или 1). Следовательно, логарифмическая потеря оказывается хорошим выбором для функции потерь во время обучения и оптимизации моделей классификации, где чем дальше вероятность предсказания от ее истинного значения, тем выше штраф за предсказание.

Как рассчитывается значение потерь журнала?

Теперь, когда вы понимаете интуицию, лежащую в основе логарифмических потерь, мы можем обсудить формулу и способы ее вычисления.

где i - данное наблюдение / запись, y - фактическое / истинное значение, p - вероятность прогноза и ln означает натуральный логарифм (логарифмическое значение с основанием e) числа.

Как рассчитывается оценка потерь модели в журнале?

Как показано выше, значение логарифма потерь рассчитывается для каждого наблюдения на основе фактического значения наблюдения (y) и вероятности прогноза (p). Чтобы оценить модель и подвести итоги ее навыков, оценка логарифмических потерь модели классификации сообщается как среднее логарифмических потерь всех наблюдений / прогнозов. Как показано ниже, среднее значение логарифма потерь для данных трех прогнозов составляет 0,110.

где N - количество наблюдений (здесь 3).

Модель с совершенными навыками имеет логарифм потерь 0. Другими словами, модель предсказывает вероятность каждого наблюдения как фактическое значение.

Какова оценка потерь журнала для проблемы классификации, а среднеквадратичная ошибка (MSE) относится к проблеме регрессии. Обе метрики показывают, насколько хороши или плохи результаты прогнозов, указывая на то, насколько прогнозы далеки от фактических значений.

Модель с более низкой оценкой потерь журнала лучше, чем модель с более высокой оценкой потери журнала, при условии, что обе модели применяются к одному и тому же распределению набора данных. Мы не можем сравнивать оценки логарифмических потерь двух моделей, примененных к двум разным наборам данных.

Как интерпретировать оценку потерь журнала?

Рассмотрим образец из 10 писем с 9 радиолюбителями. Поскольку только 1 электронное письмо (из 10) является спамом, мы могли бы построить наивную модель классификации, которая просто прогнозирует вероятность того, что каждое электронное письмо будет спамом, равным 0,1. Как показано ниже, оценка логарифма потерь этой наивной модели составляет 0,325.

Как показано ниже, при сбросе вероятности предсказания каждого электронного письма на 0,08 (чуть меньше 0,1) оценка потерь журнала оказывается равной 0,328. Точно так же, если мы установим вероятность предсказания на 0,12 (немного больше 0,1), мы получим оценку логарифма потерь 0,327. Короче говоря, если мы установим вероятность предсказания электронных писем на любое значение, отличное от 0,1, мы получим более высокий балл потери журнала.

Даже приведенный ниже рисунок подтверждает наше вышеупомянутое открытие - установка вероятности электронных писем равной 0,1 дает самый низкий балл потерь журнала для набора данных, который будет рассматриваться как базовый балл для данного образца набора данных.

Базовая логарифмическая оценка потерь для набора данных определяется на основе простой модели классификации, которая просто связывает все наблюдения с постоянной вероятностью, равной% данных, с наблюдениями класса 1. Для сбалансированного набора данных с соотношением 51:49 класса 0 к классу 1 простая модель с постоянной вероятностью 0,49 даст оценку логарифма потерь 0,693, которая рассматривается как базовая оценка для этого набора данных.

Чем выше дисбаланс в наборе данных, тем ниже базовая оценка логарифмических потерь набора данных из-за более низкой доли наблюдений (в данном случае класса 1), которые имеют большее влияние на среднее значение логарифмических потерь.

Поскольку прогнозирование низкого значения постоянной вероятности для несбалансированного набора данных приводит к очень низкому значению логарифмических потерь, в таких случаях следует осторожно интерпретировать навыки модели, оцененные с использованием логарифмических потерь. Фактически, значения логарифмических потерь всегда следует интерпретировать в контексте базовой оценки, как это предусмотрено наивной моделью.

Когда мы строим статистическую модель на заданном наборе данных, она должна превзойти базовый показатель логарифмических потерь, тем самым доказав, что она более эффективна, чем наивная модель. Если это не так, это означает, что обученная статистическая модель совершенно бесполезна, и вместо этого было бы лучше использовать наивную модель.

Не стесняйтесь оставлять отзывы об этом подходе, в котором сначала нужно пройти концептуальное понимание, а затем углубиться в формулу. Для меня этот подход сработал намного лучше, чем традиционный способ сначала непосредственно погрузиться в формулу. Обладая визуальным и концептуальным пониманием этого термина, я могу гораздо быстрее и увереннее применять его в различных ситуациях.

Если у вас есть какие-либо вопросы или отзывы, не стесняйтесь оставлять здесь комментарии. Вы также можете связаться со мной через мой профиль LinkedIn.

Интуиция за счет потерь журнала

Вопросы по теме