Генеративные модели, такие как модели GPT, построенные на основе Transformers или CLIP, включая генеративно-состязательные сети (GAN) и вариационные автоэнкодеры (VAE), работают путем изучения распределения обучающих данных. Они фиксируют базовую структуру и закономерности в данных, что позволяет им генерировать новые точки данных, которые не были замечены в обучающих данных, но по-прежнему принадлежат к тому же распределению.

Но задумывались ли вы, как далеко они могут отклоняться от лежащего в основе распределения обучающих данных? В этом блоге я дам вам основные конструкции, чтобы понять, как формализовать и думать об этой проблеме.

Прежде чем мы начнем, нам нужно понять, что все модели ИИ могут генерировать невидимые данные только в одном и том же распределении области обучения. Под этим мы подразумеваем, что мы не можем ожидать, что модели ИИ создадут образ человека, обучая их на кошках.

Теоретические ограничения этих моделей связаны, прежде всего, с обучающими данными и сложностью модели.

Распространение данных

Качество сгенерированных данных напрямую связано с качеством и разнообразием обучающих данных. Генеративная модель учится эмулировать распределение обучающих данных. Если обучающие данные не соответствуют желаемому результату, модель не даст удовлетворительных результатов.

Например, Трансформеры, как и все модели машинного обучения, управляются данными. Они учатся генерировать данные на основе распределения обучающих данных. Если обучающие данные не соответствуют желаемому типу выходных данных, преобразователь будет иметь ограниченные возможности для получения удовлетворительных результатов.

Формально, если мы обозначим обучающие данные как X_train, выбранные из распределения P, и X_test из распределения Q, Преобразователь попытается минимизировать разницу D(P||Q), где D — расхождение Кульбака-Лейблера (KL). Эта разница, однако, может быть сведена к минимуму лишь в той степени, в какой зависит степень перекрытия P и Q. Если Q (распределение данных реального мира) содержит элементы, далекие от P (распределение обучающих данных), модель будет бороться за эффективное создание этих точек.

Обобщение

Для обобщения общепринятой мерой в машинном обучении является измерение Вапника-Червоненкиса (VC), которое количественно определяет сложность модели. Он измеряет выразительную силу модели или то, насколько сложный образец модель может выучить.

Для пространства гипотез 𝓗 набор данных S размера n разбивается на 𝓗 тогда и только тогда, когда для каждого присвоения меток точкам в S существует некоторая гипотеза в 𝓗, согласующаяся с этим назначением.

Размерность VC — это максимальная мощность множества, разбитого на 𝓗.

Если модель имеет высокую размерность VC (что означает, что она может выражать более сложные функции), она может более точно соответствовать обучающим данным, но существует риск переобучения. Переобучение означает, что модель слишком хорошо усваивает обучающие данные и не может обобщать невидимые данные.

С другой стороны, недообучение происходит, когда модель слишком проста, чтобы отразить сложность распределения данных. В результате он плохо работает с обучающими данными и невидимыми данными.

Способность модели к обучению должна быть сбалансирована с ее способностью к обобщению. Этот компромисс формализован в концепции минимизации структурных рисков (SRM). Принцип SRM предлагает выбрать модель, минимизирующую верхнюю границу ожидаемого риска. Эта верхняя граница представляет собой сумму эмпирического риска (мера соответствия обучающим данным) и члена, который увеличивается с увеличением сложности модели.

Это означает, что, хотя может показаться заманчивым увеличить сложность модели, чтобы лучше соответствовать обучающим данным, это может снизить способность модели обобщать невидимые данные.

Математические идеи: от переобучения к обобщению

Давайте рассмотрим роль сложности модели более подробно. Сложность модели может быть отражена в понятии измерения Вапника-Червоненкиса (VC), меры емкости или выразительности модели, как объяснялось. Измерение VC h определяется как максимальное количество точек, которые могут быть разбиты (классифицированы всеми возможными способами) моделью.

Ключевой теоретический результат статистической теории обучения обеспечивает верхнюю границу ошибки обобщения (разница между ошибкой в ​​обучающем наборе и ошибкой в ​​невидимом тестовом наборе) следующим образом:

Generalization Error ≤ Training Error + O(sqrt((h * log(2n / h) + log(1 / δ)) / n))

В этом неравенстве n — это количество обучающих выборок, h — размер VC модели, а δ — желаемый уровень достоверности. Формула говорит нам, что по мере увеличения сложности модели (измеряемой h) верхняя граница ошибки обобщения также увеличивается. И наоборот, по мере увеличения количества обучающих выборок n ошибка обобщения уменьшается.

Например, предположим, что у нас есть модель Transformer с h = 10000 (упрощенная оценка для иллюстрации), n = 1000000 (эквивалентно 1 миллиону обучающих выборок), и нам нужен уровень достоверности 95% (δ = 0.05). Верхняя граница ошибки обобщения в соответствии с формулой будет:

Generalization Error ≤ Training Error + O(sqrt((10000 * log(200000) + log(20)) / 1000000))

Мы видим, что увеличение n или уменьшение h приведет к меньшей ошибке обобщения, отражая лучший баланс между подбором обучающих данных и обобщением невидимых данных.

Приблизительный размер VC для Transformer

Размер VC модели трансформатора может быть аппроксимирован с использованием различных методов.

Аспект механизма привлечения внимания VC

Чтобы сформулировать измерение VC механизма внимания, мы рассматриваем его аналогично ограниченной машине Больцмана (RBM). RBM — это основанная на энергии модель с n видимыми узлами и m скрытыми узлами. Его размер VC VC_RBM можно оценить с помощью границы Шеррингтона-Киркпатрика (SK), которая выражается следующим образом:

VC_RBM = n * m (1)

Здесь n представляет количество видимых узлов (токенов входной последовательности в контексте Transformers), а m соответствует скрытым узлам (головки внимания в модели Transformer). Таким образом, размер VC механизма внимания Преобразователя VC_Attention можно приблизительно представить как:

VC_Attention = n_tokens * n_heads (2)

где n_tokens — количество токенов во входной последовательности, а n_heads — количество головок внимания.

Измерение VC слоя внедрения

Для слоя встраивания Трансформера мы сравниваем его структуру со случайной моделью кухонных раковин (RKSM), типом нейронной сети с d случайно выбранными скрытыми элементами. Используя теорему Кавера, размерность VC RKSM VC_RKSM равна:

VC_RKSM = 2d (3)

В этом уравнении d означает размерность случайно выбранных скрытых единиц в RKSM. Проводя параллель с Трансформером, размер VC слоя встраивания VC_Embedding приблизительно равен:

VC_Embedding = 2 * n_dim (4)

где n_dim — размер пространства вложения.

Эмпирические методы оценки размерности ВК

Разрушение и перекрестная проверка — две эмпирические стратегии, используемые для оценки измерения VC VC. Разрушение включает в себя подсчет количества различных наборов данных S, которые модель может идеально классифицировать:

VC ≤ S (5)

При перекрестной проверке мы измеряем разрыв в производительности g между наборами для обучения и проверки. Предполагая, что большее измерение VC коррелирует с более широким разрывом в производительности из-за переобучения, мы оцениваем:

VC ≈ g (6)

Каждый метод дает представление о сложности модели Transformer, закладывая основу для осознанного выбора гиперпараметров и стратегий управления емкостью модели по сравнению со способностью к обобщению.

Важно отметить, что, хотя эти оценки обеспечивают теоретическую основу, они являются приблизительными, и их точность может варьироваться в зависимости от конкретных свойств и конфигураций рассматриваемых моделей трансформаторов.

Как мы видим, теоретические ограничения Transformers в создании невидимых данных ограничены качеством и репрезентативностью обучающих данных, сложностью модели и балансом между способностью к обучению и способностью к обобщению. Какими бы мощными ни были модели Transformer, понимание этих ограничений может способствовать более эффективному проектированию моделей и стратегиям обучения.