Публикации по теме 'vanishing-gradient'
Функции активации
Функция SIGMOID
Сигмовидная функция является наиболее часто используемой функцией активации в начале глубокого обучения. Это функция сглаживания, которую легко вывести.
Плюсы:
Выходные значения находятся в пределах от 0 до 1, нормализуя выходные данные каждого нейрона. Эта нелинейность делает сеть более сложной и позволяет использовать ее для более сложных задач.
Минусы:
Исчезающие градиенты: когда сигмоид (WX + b) приближается к 1 или 0, его производная почти равна 0. То..
Рекуррентные нейронные сети
Этот пост предполагает, что вы уже знакомы с основными идеями:
Нейронные сети Обратное распространение Функция активации ReLU
Примечание. Хотя RNN потрясающие, их обычно считают ступенькой к пониманию более сложных вещей, таких как LSTM и Transformers.
вступление
RNN — это один из способов решения проблемы разного количества входных значений. Это нейронная сеть, которая является гибкой с точки зрения того, сколько последовательных данных мы используем для прогнозирования...
Пакетная нормализация в Deep Lean
Что такое нормализация партии?
Обычной практикой является нормализация данных перед их подачей на входной слой нейронной сети. С другой стороны, нормализация не ограничивается только входным слоем. В нейронной сети у нас также есть возможность применить нормализацию к выходным данным скрытых слоев. После нормализации эти выходные данные будут использоваться в качестве входных данных для скрытого слоя, следующего за ними. Следовательно, процесс нормализации в равной степени полезен..
Введение в остаточные нейронные сети
Эта статья не предназначена для технического объяснения остаточных нейронных сетей. Я уверен, что уже существует множество руководств и книг, которые справляются с этим гораздо лучше. Эта статья предназначена для ознакомления с мотивацией ResNets и объяснением того, почему они работают очень хорошо.
Введение
Все модели глубокого обучения состоят из нескольких слоев, уложенных друг на друга, что позволяет модели изучать особенности наших входных данных и принимать решение о его..
Проблема градиента в нейронных сетях
При работе с нейронной сетью обратного распространения мы меняем значение весов в каждую эпоху так, чтобы значение функции стоимости было минимальным. Для минимизации функции стоимости используется градиентный спуск. Градиентный спуск - это итеративный метод. Мы начинаем с некоторого набора значений параметров нашей модели (весов и смещений) и постепенно их улучшаем.
Основными проблемами при работе с нейронной сетью обратного распространения являются:
Исчезающие градиенты..
Глава 11: Обучение глубоких нейронных сетей
Обзор практического машинного обучения с помощью Scikit-Learn, Keras и Tensorflow Орельена Жерона
Резюме
В этой главе основное внимание уделяется глубокому обучению и методам, которые можно использовать для предотвращения выхода нейронных сетей из-под контроля по мере того, как их сложность становится все глубже. Традиционно Deep Learning определяется как нейронная сеть, которая содержит 3 или более слоев. Но с этим добавлением слоев возникает дополнительная сложность, а со..
Подробнее о градиенте
В беседах с Евгением я определил конкретные примеры, которые могут помочь моей последней странице Преодоление проблемы исчезающего градиента .
Рассмотрим рекуррентную нейронную сеть, которая играет в игру «Лабиринт». Предлагается последовательный выбор: выбрать «правосторонний путь» или «левосторонний путь», а награды выдаются только в том случае, если лабиринт пройден менее чем за определенное количество вариантов. Предположим, что среди всех успешных воспроизведений сеть выбрала..