Чтобы понять алгоритм обратного распространения, нам сначала необходимо понять некоторые основные концепции, такие как частичные производные, цепное правило, потеря кросс-энтропии, сигмоидальная функция и функция Softmax.

Предполагая, что мы уже передали входы, чтобы получить некоторые выходы на последнем слое Y, нам нужно будет вычислить функцию потерь E и распространить потери на все предыдущие слои, изменив веса, связанные с каждым из слоев.

Зная кросс-энтропийную потерю E и активацию softmax «yi», мы можем вычислить изменение потерь относительно любого веса, соединяющего выходной слой, используя цепное правило частных производных. Интуитивно мы даже можем найти градиенты веса для всего слоя, используя матричную запись, показанную ниже.