Сравнение вероятностных распределений по глубине сети

Другой, более проницательный, хотя и трудный для интерпретации подход, сравнивает гистограммы распределения вероятностей для каждого из 28 признаков. Это позволит нам определить область, в которой коренится асимметрия в изучении признаков. Мы вводим следующие обозначения для маркировки различных сценариев классификации (s, d, t), где «s» и «d» относятся к мелкой и глубокой архитектурам соответственно, а «t» — целевая метка. Мы определяем эти величины как принимающие следующие дискретные значения:

Используя это обозначение, мы определяем два подмножества полного набора данных: набор 1 и набор 2 (таблица 3). При рассмотрении меток сценария становится очевидным, что набор 2 является подходящим подмножеством набора 1. Перекрытие можно объяснить тем, что указываются события, которые были неправильно классифицированы обеими архитектурами, соответствующие меткам (0 , 0, 1) и (1, 1, 0).

Мы хотели бы выявить любые асимметрии в распределении входных данных, для которых глубокие архитектуры классифицировали правильно, а неглубокие — нет. Этот сценарий представляет собой область без перекрытия между набором 2 и набором 1 и соответствует меткам (1, 0, 0) и (0, 1, 1). ). Определив это, мы извлекаем значения признаков, соответствующие наборам 1 и 2, из набора данных.

Распределение значений нормализовано и дано с точки зрения плотности вероятности для учета различного количества событий в двух наборах. Это используется для создания гистограмм для обоих наборов, которые строятся относительно друг друга для каждого из 28 признаков. Набор 1 окрашен в синий цвет, а набор 2 — в красный, что приводит к фиолетовому перекрытию.

Если оба классификатора обрабатывают признаки одинаково (без асимметрии), мы ожидаем, что гистограммы будут полностью перекрываться. Во-первых, рассмотрим нормализованные распределения для 21 функции низкого уровня (рис. 13). Согласие близко к идеальному, что указывает на то, что для низкоуровневых функций не существует неслучайно распределенного набора значений, для которых поверхностная и глубокая архитектуры демонстрируют асимметрию в классификации.

Теперь рассмотрим семь высокоуровневых функций (рис. 14). Мы видим значительную асимметрию в распределениях по некоторым признакам. Эта асимметрия указывает на то, что существует неслучайно распределенный набор значений, где глубокая архитектура обладает большей дискриминационной способностью, чем неглубокая архитектура. Отметим, что набор 2 (красный) имеет более широкое распределение признаков, в которых существует асимметрия. Это расширение нормализованного распределения предполагает, что глубокая архитектура может углубляться в область с преобладанием фона. Другими словами, глубокие архитектуры, по-видимому, обладают большей дискриминационной способностью в области, удаленной от пика, сосредоточенного на характеристическом значении инвариантной массы. Эта дополнительная дискриминационная способность приводит к правильной классификации большего количества событий в фоновой области, что расширяет распределение.

Причины этого трудно интерпретировать с уверенностью, поскольку глубокая архитектура явно может углубляться в фоновую область, но как они это делают? Мы можем предположить, что наличие второго внутреннего представления функций высокого уровня дает им преимущество над поверхностными архитектурами в этом регионе.

Другая возможность заключается в том, что глубокие архитектуры могут изучать определенные карты признаков, которые явно отличаются от признаков высокого уровня, которые предоставляют им дополнительную способность к различению в этой области. Затем асимметрию можно объяснить с точки зрения неглубоких архитектур, неспособных построить эти карты признаков. Оба варианта кажутся правдоподобными, и в настоящее время в литературе нет четкого ответа на вопрос, как провести различие между ними. Мы представим возможный путь исследования, который мог бы позволить нам сделать это, в заключительном разделе этого отчета.

Текущее состояние теоретических исследований

В этом отчете мы начали с введения в ИНС, а затем ввели понятие функционального обучения. Эти функции были в центре внимания данного отчета. Было замечено, что способность глубоких архитектур изучать высокоуровневые представления функций только из необработанных входных данных низкого уровня представляет огромный практический интерес. Введя некоторые математические основы, мы исследовали, как архитектуры различной глубины работают с наборами данных по физике высоких энергий. Представленные результаты показывают, что глубокие архитектуры обеспечивают как большую дискриминационную способность, так и возможность создавать более сложные внутренние представления.

Теперь мы хотели бы дать читателю некоторое завершение и дать строгое теоретическое объяснение того, почему это так. К сожалению, такого объяснения не существует; все, что у нас есть, это эмпирические данные. Глубокое обучение только недавно попало в центр внимания, однако это произошло не в результате расширения теоретического понимания. Наша способность обучать глубокие архитектуры во многом обязана нашей недавно полученной способности решать проблему исчезающего градиента с помощью увеличенной вычислительной мощности и больших наборов данных [1, 19].

Пока еще нет единой основы для анализа ИНС [29]. Это подчеркивается тем фактом, что большинство новых архитектур берут свое начало в знаниях, полученных в результате изучения биологических нейронных систем, а не в теоретических расширениях существующих моделей [41]. Однако это не означает, что мы не делаем вторжений. Трудность поставить эту область на прочную теоретическую основу двояка. Эти архитектуры очень общие, с неограниченным количеством потенциальных функций активации и схем взаимосвязей между нейронами. Кроме того, не было достигнуто единого мнения о том, как эффективно обучать и инициализировать глубокие модели [5, 10, 11].

Не желая оставлять читателя таким неудовлетворительным обсуждением, мы теперь кратко коснемся некоторых теоретических представлений о преимуществах глубоких архитектур, вытекающих из теории сложности схем. Мы отмечаем, что эти идеи получены в результате исследований связанных архитектур и не могут быть легко обобщены на те, которые используются в нашем исследовании. Затем мы обсудим, как можно расширить этот проект, чтобы получить новое представление о внутренних представлениях, созданных этими архитектурами, с использованием недавно появившихся методов. Наконец, мы завершим этот отчет в следующем разделе обсуждением значения изучения признаков для будущего науки.

Теория сложности схемы

Некоторые из лучших формальных аргументов в пользу превосходства глубоких архитектур исходят из теории сложности. В этой структуре нейронные сети учатся представлять нетривиальные многомерные функции своих входных данных во время обучения. Будучи универсальными аппроксиматорами функций, ИНС, имея только один скрытый слой, могут аппроксимировать любую непрерывную функцию с правильным набором внутренних параметров [16]. Обратите внимание, однако, что доказательство этого основано на некоторых серьезных предположениях относительно функций активации и сетевой архитектуры; кроме того, ничего не говорится о том, можно ли узнать эти параметры с помощью обратного распространения за конечное время вычислений.

В статье 2011 г. Y. Bengio и O. Delaleau они рассматривают теоретические результаты из нескольких источников, предполагая, что для представления высокоуровневых абстракций, необходимых для современных исследований, могут потребоваться глубокие архитектуры [6]. Обсуждая глубину, они опираются на формальное заявление Хастада 1986 года, в котором говорилось, что существуют функции, которые можно вычислить с глубиной схемы z, требующие экспоненциального размера при ограничении до z-1 [35]. Йошуа отмечает, что это утверждение было дополнительно усилено анализом, проведенным Браверманом, который обнаружил большой класс функций, которые не могут быть эффективно представлены с помощью неглубоких схем [36].

Менее формальные объяснения обычно полагаются на наше интуитивное понимание абстракций — это было представлено Бенджио в отдельной статье 2009 года [5], в которой он утверждает, что для людей естественно представлять понятия на одном уровне абстракции, используя понятия, разработанные на более низких уровнях. . Это предполагает, что глубокие архитектуры особенно хорошо подходят для представления абстракций более высокого уровня, поскольку эти архитектуры могут использовать существование лежащих в основе общих объясняющих факторов. Эта способность использовать общие факторы обычно называется трансферным обучением. Глубокие архитектуры победили в ряде недавних задач по переносу обучения [12, 23], обеспечивая некоторую эмпирическую поддержку этого утверждения.

Отсутствие строгой теоретической основы для обсуждения нейронных сетей и их представлений воспринимается сообществом машинного обучения как серьезная проблема. Это, несомненно, послужит мотивацией для распространения на них существующих в настоящее время теоретических результатов. Кроме того, мы надеемся, что в ближайшие годы некоторые из более эвристических аргументов, касающихся нейронных сетей, будут переведены на более строгую основу.

Ссылки

Для ссылок в этой статье, пожалуйста, смотрите этот пост.

Репост из Моего личного блога.