Скромное начало.

Искусственные нейронные сети (ИНС), о которых впервые написали Уоррен Маккалок и Уолтер Питтс в 1943 году, дали представление о том, как биологический нейрон можно рассматривать как машину, выполняющую вычисления. В то время целью McCulloch & Pitts было не обязательно решить проблемы регрессии или классификации с помощью нейронных сетей, но продемонстрировать, как биологические нейроны можно рассматривать как машины [1]. Таким образом, процесс создания ИНС и ее обучения не предлагался. Только в 1957 году в отчете Фрэнка Розенблатта [3] было показано, как можно обучать ИНС. Однако сеть Розенблатта состояла всего из двух слоев и использовала только линейные активации с пороговыми функциями для определения выхода. В отличие от сегодняшних сетей, которые используют множество активаций. Это означало, что нейронные сети, которые он использовал, по-прежнему не могли аппроксимировать функции с нелинейным отображением между входами и выходами или в которых переменные характеристик имели нелинейные отношения. Другая проблема подхода Розенблатта заключалась в том, что он не учитывал многослойные персептроны.

Внедрение обратного распространения.

Розенблатт не использовал многослойные перцептроны из-за того, что у него не было возможности обучить их (эта критика приписывается Марвину Мински и Сеймуру Паперту). Решение этой проблемы потребовало одного из наиболее важных достижений, которое, скорее всего, положило начало сдвигу парадигмы в сторону ИНС: Алгоритм обратного распространения информации. Первая опубликованная работа по алгоритму обратного распространения информации - прикладным вычислительным средствам - приписывается тезису финского магистранта Сеппо Линнаинмаа в 1970 году (подробнее об этом и английском переводе см. Здесь). Несмотря на явное упоминание нейронных сетей, это была первая статья, в которой был дан эффективный вычислительный метод для выполнения обратного распространения. Трудно точно определить, кто первым установил связь между нейронными сетями и обратным распространением. Но Полу Вербосу приписывают описание процесса, в котором мы используем обратное распространение, чтобы найти градиент целевой функции, и использование этого градиента для обновления обучаемых параметров ИНС [4]. В статье Вербоса показано, как можно рассчитать потери, а затем, используя дифференцируемые функции активации на каждом уровне, вычислить их производные и распространить их в обратном направлении по сети. Он показал, как, начиная с выходного слоя ИНС, мы можем последовательно вычислять ошибку каждого слоя и использовать ее для вычисления ошибок предыдущих слоев. Это позволяет нам получить градиент общей целевой функции.

Ограничения оборудования нарушены, но возникла новая проблема.

Рост вычислительной мощности и емкости хранилища сделал нейронные сети гораздо более многообещающей темой исследования; мы можем анализировать гораздо большие наборы данных и создавать более сложные модели. Однако физические ограничения транзисторов, которые могут быть установлены на микрочипах, означает, что использование более совершенных процессоров не является возможным долгосрочным подходом к повышению производительности. Таким образом, многие текущие исследования сосредоточены на: поиске численных методов, которые быстрее достигают сходимости к цели, методов извлечения и хранения данных с использованием большего объема памяти и экономии времени, а также использование умных способов манипулирования данными для достижения максимальной производительности.

Последнее слово.

Сегодня ИНС по-прежнему является горячей темой, многие рассматривают ее как «черный ящик», а некоторые видят в ней еще одну статистическую модель, хотя и редко понимаемую. Принимая все это во внимание, я считаю, что еще многое предстоит узнать о приложениях ИНС - мне интересно узнать, что их ждет в будущем!

Ссылки.

[1] Крис Бишоп. Точный расчет матрицы гессиана для многослойного персептрона. Нейронные вычисления, 4 (4): 494–501, 1992. DOI: 10.1162 / neco.1992.4.4.494.

[2] Уоррен С. Маккалок и Уолтер Питтс. Логический расчет идей, присущих нервной деятельности. Бюллетень математической биофизики, 5: 115–143, 1943. doi: https://doi.org/10.1007/ BF02478259.

[3] Ф. Розенблатт. Эксперименты по моделированию персептрона. Труды IRE, 48 (3): 301–309, 1960. DOI: 10.1109 / JRPROC.1960.287598. URL https://ieeexplore.ieee.org/abstract/ документ / 4066017.

[4] П. Дж. Вербос. Обратное распространение во времени: что оно делает и как это делать. Труды IEEE, 78 (10): 1550–1560, 1990. DOI: 10.1109 / 5.58337.