Логарифмы и причины, по которым они имеют решающее значение в машинном обучении

Логарифмы были одной из тем, которые мне приходилось изучать в школе и на курсах бакалавриата. Хотя я любил математику, мне не особенно нравилось изучать логарифмы. Может быть, потому, что я не выучил или не понял его правильно. С самого начала моего пути к машинному обучению я видел, как логарифмы часто применяются в машинном обучении. Так что я подумал, может быть, я мог бы выучить его снова.

Что такое логарифм?

Логарифм или журнал — это причудливый способ выражения показателей степени.

Пример. Рассмотрим показательное уравнение 2⁴=16 (2 в 4-й степени равно 16). Предположим, мы хотим узнать «2 в какой степени будет равно 16?». Ответ будет 4. Это выражается логарифмическим уравнением log₂(16)=4, которое читается как «логарифмическое основание два из шестнадцати равно четырем».

2⁴=16⟷log₂(16)=4

Оба уравнения описывают одну и ту же связь между числами 2, 4 и 16, где 2 — это основание, 4 — показатель степени, а 16 — аргумент. сильный>.

b — основание
c — показатель степени
a — аргумент

Специальные логарифмы

Основание логарифма может принимать любые значения. Но есть две базы, которые используются чаще любых других. Это i) десятичный логарифм и ii) натуральный логарифм.

Десятичный логарифм: логарифм по основанию 10 (логарифм по основанию 10). Обычно мы опускаем основание в этом типе.

Натуральный логарифм: логарифм по основанию e (логарифм по основанию e). Символ e называется математической константой, равной 2,718. Мы можем написать ln, чтобы указать натуральный логарифм вместо записи основания.

Свойства логарифма

Логарифмы обладают некоторыми полезными свойствами для решения и упрощения логарифмических уравнений.

Почему логарифмы используются в машинном обучении

Есть несколько причин, по которым логарифмы важны в машинном обучении.

Преобразование журнала

Широко используемый метод преобразования данных для устранения искаженных данных. Он применяет к данным логарифмическую функцию некоторого основания. В случаях, когда данные имеют асимметричное распределение, применение логарифмического преобразования может уменьшить асимметрию. Асимметрия – это показатель, описывающий асимметрию в распределении данных. Существует два типа асимметрии:

Положительная асимметрия (правильная асимметрия): хвост в правой части распределения длиннее или более растянут.
Отрицательная асимметрия (левая асимметрия): хвост в левой части распределения длиннее или более растянут.

Обычно преобразование журнала применяется, когда ваши данные сильно смещены вправо. На рис. 1 показано распределение с перекосом вправо, а на рис. 2 показано распределение после логарифмического преобразования.

Мы видим, что распределение с перекосом вправо изменилось после логарифмического преобразования. Они более разбросаны и напоминают нормальное распределение.

Цель преобразования журнала

Линейные модели, такие как линейная регрессия, плохо работают с сильно искаженными данными. Преобразование журнала может сделать данные более линейными и разбросанными, чтобы улучшить производительность модели.
Преобразования журнала помогают нормализовать данные. Некоторые статистические тесты и модели предполагают, что данные имеют нормальное распределение.
Простота интерпретации: улучшает интерпретируемость

Уменьшить сложность моделей

Это одна из основных причин использования логарифмов в машинном обучении. Логи могут превратить умножение в сложение. Это полезно, потому что сложение легче работать, чем умножение. Согласно правилу произведения логарифмов, журнал продукта равен сумме отдельных журналов log_b(xy)=log_b(x)+log_b(y). Основание логарифма часто считается фиксированной константой в машинном обучении, поэтому его можно опустить.

Предположим, что в случае вероятностных моделей мы работаем с логарифмическим правдоподобием, а не просто с правдоподобием. То есть мы предпочитаем максимизировать логарифмическую вероятность вместо того, чтобы иметь дело с правдоподобием. Это связано с тем, что функция правдоподобия вычисляет произведение вероятностей. Если взять логарифм вероятности, умножение превращается в сложение. Также максимизация логарифмической вероятности аналогична максимизации правдоподобия, поскольку логарифм является монотонно возрастающей функцией.

Численная стабильность

Как вы знаете, теория вероятностей является важным аспектом машинного обучения. Значения вероятности лежат в диапазоне [0, 1]. Часто значение может быть очень маленьким, и, следовательно, умножение двух или более таких малых значений может легко привести к аннулированию значимости из-за ограниченной точности вычислительных устройств (рассмотрите умножение 0,00001 * 0,000002).

И наоборот, работа с большими целыми числами может привести к переполнению, когда оно не может быть точно представлено. Практическим решением в этих случаях является использование журналов, чтобы избежать проблем с численной нестабильностью.