Логарифмы были одной из тем, которые мне приходилось изучать в школе и на курсах бакалавриата. Хотя я любил математику, мне не особенно нравилось изучать логарифмы. Может быть, потому, что я не выучил или не понял его правильно. С самого начала моего пути к машинному обучению я видел, как логарифмы часто применяются в машинном обучении. Так что я подумал, может быть, я мог бы выучить его снова.
Что такое логарифм?
Логарифм или журнал — это причудливый способ выражения показателей степени.
Пример. Рассмотрим показательное уравнение 2⁴=16 (2 в 4-й степени равно 16). Предположим, мы хотим узнать «2 в какой степени будет равно 16?». Ответ будет 4. Это выражается логарифмическим уравнением log₂(16)=4, которое читается как «логарифмическое основание два из шестнадцати равно четырем».
2⁴=16⟷log₂(16)=4
Оба уравнения описывают одну и ту же связь между числами 2, 4 и 16, где 2 — это основание, 4 — показатель степени, а 16 — аргумент. сильный>.
b — основание
c — показатель степени
a — аргумент
Специальные логарифмы
Основание логарифма может принимать любые значения. Но есть две базы, которые используются чаще любых других. Это i) десятичный логарифм и ii) натуральный логарифм.
Десятичный логарифм: логарифм по основанию 10 (логарифм по основанию 10). Обычно мы опускаем основание в этом типе.
Натуральный логарифм: логарифм по основанию e (логарифм по основанию e). Символ e называется математической константой, равной 2,718. Мы можем написать ln, чтобы указать натуральный логарифм вместо записи основания.
Свойства логарифма
Логарифмы обладают некоторыми полезными свойствами для решения и упрощения логарифмических уравнений.
Почему логарифмы используются в машинном обучении
Есть несколько причин, по которым логарифмы важны в машинном обучении.
Преобразование журнала
Широко используемый метод преобразования данных для устранения искаженных данных. Он применяет к данным логарифмическую функцию некоторого основания. В случаях, когда данные имеют асимметричное распределение, применение логарифмического преобразования может уменьшить асимметрию. Асимметрия – это показатель, описывающий асимметрию в распределении данных. Существует два типа асимметрии:
- Положительная асимметрия (правильная асимметрия): хвост в правой части распределения длиннее или более растянут.
- Отрицательная асимметрия (левая асимметрия): хвост в левой части распределения длиннее или более растянут.
Обычно преобразование журнала применяется, когда ваши данные сильно смещены вправо. На рис. 1 показано распределение с перекосом вправо, а на рис. 2 показано распределение после логарифмического преобразования.
Мы видим, что распределение с перекосом вправо изменилось после логарифмического преобразования. Они более разбросаны и напоминают нормальное распределение.
Цель преобразования журнала
- Линейные модели, такие как линейная регрессия, плохо работают с сильно искаженными данными. Преобразование журнала может сделать данные более линейными и разбросанными, чтобы улучшить производительность модели.
- Преобразования журнала помогают нормализовать данные. Некоторые статистические тесты и модели предполагают, что данные имеют нормальное распределение.
- Простота интерпретации: улучшает интерпретируемость
Уменьшить сложность моделей
Это одна из основных причин использования логарифмов в машинном обучении. Логи могут превратить умножение в сложение. Это полезно, потому что сложение легче работать, чем умножение. Согласно правилу произведения логарифмов, журнал продукта равен сумме отдельных журналов log_b(xy)=log_b(x)+log_b(y). Основание логарифма часто считается фиксированной константой в машинном обучении, поэтому его можно опустить.
Предположим, что в случае вероятностных моделей мы работаем с логарифмическим правдоподобием, а не просто с правдоподобием. То есть мы предпочитаем максимизировать логарифмическую вероятность вместо того, чтобы иметь дело с правдоподобием. Это связано с тем, что функция правдоподобия вычисляет произведение вероятностей. Если взять логарифм вероятности, умножение превращается в сложение. Также максимизация логарифмической вероятности аналогична максимизации правдоподобия, поскольку логарифм является монотонно возрастающей функцией.
Численная стабильность
Как вы знаете, теория вероятностей является важным аспектом машинного обучения. Значения вероятности лежат в диапазоне [0, 1]. Часто значение может быть очень маленьким, и, следовательно, умножение двух или более таких малых значений может легко привести к аннулированию значимости из-за ограниченной точности вычислительных устройств (рассмотрите умножение 0,00001 * 0,000002).
И наоборот, работа с большими целыми числами может привести к переполнению, когда оно не может быть точно представлено. Практическим решением в этих случаях является использование журналов, чтобы избежать проблем с численной нестабильностью.
Рекомендации
Первоначально опубликовано на https://machinelearningbrain.website 2 августа 2023 г.