Искусственные нейронные сети и их математические теоремы

Как эзотерическая теорема дает важные ключи к разгадке возможностей искусственных нейронных сетей

В настоящее время искусственный интеллект присутствует практически во всех сферах нашей жизни. Смартфоны, каналы социальных сетей, системы рекомендаций, рекламные сети в Интернете и инструменты навигации - вот примеры приложений на основе искусственного интеллекта, которые влияют на нас ежедневно.

Глубокое обучение систематически улучшает состояние дел в таких областях, как распознавание речи, автономное вождение, машинный перевод и распознавание визуальных объектов. Однако причины, по которым глубокое обучение работает так хорошо, еще не до конца понятны.

Подсказки по математике

Поль Дирак, один из отцов квантовой механики и, возможно, величайший английский физик со времен сэра Исаака Ньютона, однажды заметил, что прогресс в физике с использованием метода математического разума будет

«… Позволяют [ам] одному делать выводы об экспериментах, которые не проводились. Нет никакой логической причины, по которой метод […] должен быть вообще возможен, но на практике было обнаружено, что он действительно работает и добивается умеренного успеха. Это должно быть приписано некоторому математическому качеству в Природе, качеству, о котором не подозревал бы случайный наблюдатель Природы, но которое, тем не менее, играет важную роль в схеме Природы ».

- Поль Дирак, 1939 г.

В истории есть много примеров, когда чисто абстрактные математические концепции в конечном итоге привели к мощным приложениям, выходящим за рамки контекста, в котором они были разработаны. Эта статья - об одном из таких примеров.

Хотя я работаю с машинным обучением уже несколько лет, я по образованию физик-теоретик, и у меня есть слабость к чистой математике. В последнее время меня особенно интересовали связи между глубоким обучением, чистой математикой и физикой.

В этой статье представлены примеры мощных методов из раздела математики, называемого математический анализ. Моя цель - использовать точные математические результаты, чтобы попытаться оправдать, по крайней мере, в некоторых отношениях, почему методы глубокого обучения работают так удивительно хорошо.

Прекрасная теорема

В этом разделе я буду утверждать, что одна из причин, по которой искусственные нейронные сети настолько мощны, тесно связана с математической формой выходных данных ее нейронов.

Я буду обосновывать это смелое утверждение, используя знаменитую теорему, первоначально доказанную двумя русскими математиками в конце 50-х годов, так называемую теорему Колмогорова-Арнольда о представлении.

13-я проблема Гильберта

В 1900 году Давид Гильберт, один из самых влиятельных математиков 20-го века, представил знаменитый сборник задач, который фактически определил курс математических исследований 20-го века.

Теорема Колмогорова – Арнольда связана с одной из знаменитых проблем Гильберта, каждая из которых оказала огромное влияние на математику 20-го века.

Завершение связи с нейронными сетями

Обобщение одной из этих проблем, в частности 13-й проблемы, рассматривает возможность того, что функция n переменных может быть выражена как комбинация сумм и композиций всего двух функций одной переменной, которые обозначаются Φ и ϕ.

Более конкретно:

Здесь η и λs - действительные числа. Следует отметить, что эти две одномерные функции Φ и ϕ могут иметь очень сложную (фрактальную) структуру.

Три статьи Колмогорова (1957), Арнольда (1958) и Sprecher (1965) предоставили доказательство того, что такое представление должно существовать. Этот результат является довольно неожиданным, поскольку в соответствии с ним ошеломляющая сложность многомерных функций может быть переведена в тривиальные операции одномерных функций, такие как сложение и композиции функций.

Что теперь?

Если вы зашли так далеко (а я был бы в восторге, если бы вы это сделали), вы, вероятно, задаетесь вопросом: как могла эзотерическая теорема 50-х и 60-х годов иметь хоть какое-то отношение к передовым алгоритмам, таким как искусственные нейронные сети?

Напоминание об активации нейронных сетей

Выражения, вычисляемые в каждом узле нейронной сети, представляют собой композиции других функций, в данном случае так называемых функций активации. Степень сложности таких композиций зависит от глубины скрытого слоя, содержащего узел. Например, узел во втором скрытом слое выполняет следующие вычисления:

Где w - веса, а b - смещения. Сходство с многомерной функцией f, показанной несколькими абзацами выше, очевидно!

Давайте быстро напишем функцию на Python только для прямого распространения, которая выводит вычисления, выполняемые нейронами. Код для функции ниже состоит из следующих шагов:

  • Первая строка: первая функция активации ϕ действует на первом линейном шаге, задаваемом:
x0.dot(w1) + b1

где x0 - входной вектор.

  • Вторая строка: вторая функция активации действует на второй линейный шаг.
y1.dot(w2) + b2
  • Третья строка: в последнем слое нейронной сети используется функция softmax, действующая на третьем линейном шаге.
y2.dot(w3) + b3

Полная функция:

def forward_propagation(w1, b1, w2, b2, w3, b3, x0):
    
    y1 = phi(x0.dot(w1) + b1)
    y2 = phi(y1.dot(w2) + b2)
    y3 = softmax(y2.dot(w3) + b3)
    
    return y1, y2, y3

Чтобы сравнить это с нашим выражением выше, мы пишем:

y2 = phi(phi(x0.dot(w1) + b1).dot(w2) + b2)

Соответствие можно прояснить:

Связь двух миров

Таким образом, мы заключаем, что результат, доказанный Колмогоровым, Арнольдом и Спречером, означает, что нейронные сети, выходные данные которых представляют собой не что иное, как повторяющуюся композицию функций, являются чрезвычайно мощными объектами, которые могут представлять любую многомерную функцию или, что эквивалентно, почти любой процесс в природе. . Это частично объясняет, почему нейронные сети так хорошо работают во многих областях. Другими словами, обобщающая способность нейронных сетей, по крайней мере частично, является следствием теоремы Колмогорова-Арнольда о представлении.

Как отмечал Джузеппе Карлео, обобщающая способность формирования функций функций функций ad nauseam была в некотором роде открыта. независимо также по природе , поскольку нейронные сети, которые работают, как показано выше, делают именно это, являются упрощенным способом описания того, как работает наш мозг.

Большое спасибо за чтение! Всегда приветствуются конструктивная критика и отзывы!

На моем Github и на моем веб-сайте www.marcotavora.me есть еще кое-что интересное как о науке о данных, так и о физике.

Впереди еще много всего, следите за обновлениями!