Функции активации

Функция SIGMOID

Сигмовидная функция является наиболее часто используемой функцией активации в начале глубокого обучения. Это функция сглаживания, которую легко вывести.

Плюсы:

Выходные значения находятся в пределах от 0 до 1, нормализуя выходные данные каждого нейрона.
Эта нелинейность делает сеть более сложной и позволяет использовать ее для более сложных задач.

Минусы:

Исчезающие градиенты: когда сигмоид (WX + b) приближается к 1 или 0, его производная почти равна 0. То есть в этот момент сеть отказывается учиться или учится очень медленно. Почему это происходит? Градиенты нейронных сетей находятся с помощью обратного распространения ошибки. Обратное распространение находит производные сети, перемещая слой за слоем от последнего слоя к начальному. По цепному правилу производные каждого слоя перемножаются по сети (от последнего слоя к начальному) для вычисления производных начальных слоев. Когда мы перемещаемся вниз по слоям, n небольших градиентов умножаются, вызывая экспоненциальное уменьшение градиента.
Вычислительно дорого (из-за участия экспоненты)

Функция Тан

Она очень похожа на сигмовидную функцию активации и даже имеет такую же S-образную форму.

Функция принимает любое действительное значение в качестве входных данных и выводит значения в диапазоне от -1 до 1. Чем больше входное значение (более положительное), тем ближе выходное значение будет к 1,0, тогда как чем меньше входное значение (более отрицательное), тем ближе вывод будет равен -1.0.

Плюсы:

выход ориентирован на ноль
Производная значения функции тангенса находится в диапазоне от 0 до 1.

Минусы:

Проблема исчезновения градиента и проблема взрыва градиента
Вычислительно дорого

Функция активации ReLu (ReLu- Rectified Linear Unit)

Функция ReLU (выпрямленная линейная единица) — это функция активации, которая в настоящее время более популярна. По сравнению с сигмовидной функцией и функцией тангенса она имеет следующие преимущества:

1) Когда вход положительный, проблема насыщения градиента отсутствует.

2) Скорость расчета намного быстрее. Функция ReLU имеет только линейную зависимость. Будь то вперед или назад, это намного быстрее, чем sigmod и tanh. (Sigmoid и tanh должны вычислять показатель степени, что будет медленнее.) Поскольку отрицательные значения X ограничены 0, активируется меньше нейронов, следовательно, сеть легче, а вычисления выполняются быстрее.

Минусы:

Умирающая проблема RELU: поскольку выход равен нулю для всех отрицательных входов. Это приводит к тому, что некоторые узлы полностью умирают и ничего не изучают. В результате эти нейроны не будут корректировать свои веса во время обратного распространения и ничего не изучат.
Не нулевой центр.
Взрыв градиентов, поскольку диапазон RELU равен (0, inf)

Чтобы решить проблему умирающих нейронов, был введен дырявый relu.

Дырявый RELU и параметрический RELU

Вместо того, чтобы делать отрицательные значения полными 0, для Leaky ReLU используется 0,01x вместо 0, так что отрицательные значения учитываются при обратном распространении. Точно так же параметрический Relu имеет альфа * х вместо 0,01. Здесь альфа — это обучаемый параметр.

Функция Софтмакс

Сигмовидные возвращаемые значения формируются от 0 до 1, что можно рассматривать как вероятность принадлежности точки данных к одному классу. Сигмоид используется для двоичной классификации.

Принимая во внимание, что функция Softmax используется для многоклассовой классификации. Он вычисляет вероятность того, что точки данных принадлежат каждому классу.

Спасибо, если вы найдете это полезным, пожалуйста, проголосуйте.