Один из крестных отцов ИИ, Джеффри Хинтон, очень подозрительно относится к одной из фундаментальных особенностей многих архитектур ИИ: обратному распространению. Нам нужно начинать заново?

Во-первых, что такое обратное распространение?

Обратное распространение - это применение цепного правила.

Цепное правило - это фундаментальное свойство производных (наклон касательной к кривой в определенной точке), неформально заявляющее, что производная комплексной функции - это производная внешней функции, умноженная на производную внутренней функция. Это можно аккуратно записать как:

Используя правило цепочки, давайте объясним обратное распространение в простой нейронной сети 3–4–3 (все это означает, что существует 3 уровня: входной слой, скрытый слой и выходной слой - каждый блок связан с другим блоком, с каждым соединением, имеющим вес, который умножает входы от предыдущего блока, посредством чего блок суммирует все входы, подключенные к нему, выполняет функцию активации и передает результат вперед).

Что касается данных, которые вы вводите в эту сеть, скажем, у вас есть m обучающих примеров (давайте пропустим части, посвященные векторам и математической нотации). Мы вычисляем значения ошибок, предсказываемые сетью после подачи m, и пытаемся минимизировать эту ошибку, используя градиентный спуск.

Градиентный спуск требует от нас найти производную ошибки по каждому весу, чего мы достигаем с помощью обратного распространения ошибки. Затем вы спускаетесь по градиенту ошибки до тех пор, пока не достигнете минимумов с соответствующими весами для параметров вашей модели. Бум - проблема решена!

Так в чем проблема?

Самая фундаментальная проблема заключается в том, что обратное распространение просто не отражает способ работы мозга, что в значительной степени является целью настоящего ИИ. Фактические нейроны в мозге работают путем «пиков», и передаточные функции сильно отличаются от вашей типичной функции активации сигмовидной кишки.

Если вы хотите получить представление о сложности отдельного реального нейрона, взгляните на модель Ходжкина-Хаксли.

Помимо схематической диаграммы самого высокого уровня, у вас также есть более сложный в каждом компоненте:

Сравним это с одним нейроном нейронной сети:

Немного похоже на яблоки и апельсины, не так ли?

Есть также двойные проблемы с эффективностью и действенностью обучения моделей глубокого обучения с обратным распространением. Во-первых, данные для обучения очень расточительны. В то время как человек может изучить новый объект, увидев его 1 или 2 раза, модели может потребоваться 10 000 или 100 000 примеров.

Кроме того, человеку не нужен ярлык, чтобы чему-то научиться. Вам не нужно, чтобы кто-то держал табличку с надписью «машина» рядом с каждой машиной, которую вы видите, и табличку с надписью «не машина» рядом со всем, что не является автомобилем. Человек хорошо обучается с неконтролируемыми и неструктурированными данными, в то время как обратное распространение - это решение-заполнитель, требующее тонны помеченных, структурированных данных.

Эту статью написал Фредерик Бусслер, генеральный директор bitgrit. Присоединяйтесь к нашему сообществу специалистов по данным или нашему Telegram, чтобы получить информацию и узнать о возможностях в области науки о данных.