Суррогатное моделирование

Введение в суррогатное моделирование, часть III: помимо основ

Подход машинного обучения для ускорения инженерного проектирования

В части I этой серии мы познакомили с фундаментальными концепциями суррогатного моделирования. Во части II мы увидели суррогатное моделирование в действии на примере конкретного случая, который представил полный цикл анализа.

Напомним, метод суррогатного моделирования обучает дешевую, но точную статистическую модель, которая может служить суррогатом для вычислительно дорогостоящего моделирования, тем самым значительно повышая эффективность проектирования и анализа продукта.

В части III мы кратко обсудим следующие три тенденции, выявленные в исследованиях и применении суррогатного моделирования:

  • Суррогатное моделирование с усилением градиента: включение градиентов в обучающие выборки для повышения точности модели;
  • Суррогатное моделирование с множественной точностью: ассимилируйте данные обучения с различной точностью для достижения более высокой эффективности обучения;
  • Активное обучение: интеллектуальное обучение суррогатных моделей путем активного выбора следующих обучающих данных.

Оглавление
· 1. Суррогатные модели с усилением градиента
1.1 Основная идея
1.2 Пример
1.3 Задача
· 2. Множественные суррогатные модели
2.1 Основная идея
2.2 Пример
· 3. Активное обучение
3.1 Основная идея
3.2 Ожидаемая ошибка прогнозирования (EPE)
· 4. Ключевые выводы
· Дополнительная литература
· Об авторе

1. Суррогатные модели с градиентным усилением

1.1 Основная идея

Градиенты определяются как чувствительность выхода по отношению к входам. Благодаря быстрому развитию таких технологий, как сопряженный метод и автоматическое дифференцирование, теперь для кода инженерного моделирования стало обычным не только вычислять выходные данные f (x ) с учетом входного вектора x, но также вычисляет градиенты ∂ f (x ) / ∂ x одновременно с незначительными затратами.

Следовательно, мы можем расширить наши пары обучающих данных (x, f (x)) в тройки обучающих данных (x, f (x), ∂ f (x) / ∂ x). Используя дополнительную информацию о градиенте, обученная суррогатная модель может достичь более высокой точности по сравнению с моделью, обученной только на (x, f ( x)), учитывая, что обе модели используют одинаковое количество точек обучающих данных.

Мы также можем заявить о преимуществах включения градиентов эквивалентным образом: это позволяет уменьшить количество точек данных для достижения заданной точности. Это желательная функция на практике. Напомним, что для создания каждой точки обучающих данных требуется один раз запустить дорогостоящий код моделирования. Если мы сможем сократить общее количество точек обучающих данных, мы сможем обучить суррогатную модель с меньшим вычислительным бюджетом, что повысит эффективность обучения.

1.2 Пример

Давайте рассмотрим один пример, чтобы увидеть, как суррогатная модель с градиентным усилением может еще больше повысить точность прогнозирования. В этом примере мы используем Gaussian Process и его версию с улучшенным градиентом в качестве суррогатных моделей для аппроксимации функции, показанной на рис. 1.

Обе суррогатные модели используют одни и те же обучающие выборки. Для гауссовского процесса с улучшенным градиентом градиенты y по отношению к x в этих обучающих выборках также предоставляются для обучения.

Из результатов прогнозирования, показанных на рис. 1, мы можем ясно видеть, что версия суррогатной модели с градиентным усилением имеет гораздо лучшую точность, чем ее базовая версия. Особенно в области около x = 0,8: даже несмотря на то, что в этой области не выделены обучающие выборки, модели с улучшенным градиентом все же удается правильно уловить тенденцию.

1.3 Вызов

Взрыв данных представляет собой серьезную проблему, препятствующую реализации суррогатного моделирования с градиентным усилением.

Во-первых, с увеличением количества входных параметров доступная информация растет экспоненциально. Например, предположим, что есть 2 входных параметра, и мы используем 10 обучающих выборок для обучения суррогатной модели. В этой ситуации наши общие данные обучения состоят из 30 частей информации:

Теперь предположим, что нам нужно рассмотреть всего 4 входных параметра. По мере увеличения количества входных данных нам потребуется больше образцов для обучения модели. Допустим, мы используем 20 образцов. Теперь наши общие данные обучения будут состоять из 100 единиц информации:

Следовательно, общие данные обучения очень быстро растут при увеличении входных параметров. Обилие обучающих данных не обязательно может быть хорошим делом, поскольку замедляет процесс настройки модели (то есть оптимизацию гиперпараметров модели). В крайних случаях обучение суррогатной модели занимает даже больше времени, чем запуск моделирования.

Во-вторых, теоретически производные высшего порядка также могут быть включены в обучение суррогатной модели. Это также приводит к взрывному росту объемов данных: количество производных, используемых при обучении модели, растет экспоненциально с увеличением порядка производных. Например, при двух входных параметрах x ₁ и x ₂ производные первого порядка содержат только 2 члена (т. Е. ∂ f / ∂ x ₁ и ∂ f / ∂ x ₂), а производные второго порядка содержат дополнительные 3 члена (т. е. ∂ f ² / ∂² x ₁, ∂ f ² / ∂² x ₂ и ∂ f ² / ∂ x ₁∂ x ₂), поэтому всего 5 членов.

Столкнувшись с проблемой увеличения количества обучающих данных, нам нужно быть более осторожными в решении, какие производные от каких выборок попадают в обучающий набор данных. Поиск нужного количества градиентов, чтобы можно было уменьшить общие усилия по обучению, составляет активную область исследований.

2. Множественные суррогатные модели.

2.1 Основная идея

Во многих случаях в вычислительной технике для одного и того же результата доступны несколько кодов моделирования с разной точностью и стоимостью оценки.

Моделирование с высокой точностью учитывает более точное пространственно-временное разрешение лежащего в основе физического процесса. Хотя результаты больше соответствуют действительности, вычислительные затраты также высоки. На другом конце спектра у нас есть симуляции с низкой точностью, которые обычно имеют более грубое пространственное / временное разрешение и включают более грубые физические детали. Однако они работают намного быстрее, чем их высокоточные аналоги.

Естественно, мы хотим, чтобы наши суррогатные модели имели такую ​​же точность, как и симуляции с высокой точностью. Однако создание сэмплов исключительно на основе моделирования с высокой точностью довольно дорого. Итак, как мы можем добиться достаточной точности, не заплатив слишком много за обучение суррогатной модели?

Один из способов, которым мы можем это сделать, - это создать только небольшое количество образцов с высокой точностью, но в то же время сгенерировать большое количество сэмплов с низкой точностью (поскольку их создание дешево). Агрегируя выборки из обеих верностей, мы можем максимизировать точность суррогатной модели при минимизации связанных затрат на обучение.

Это именно то, чего пытается достичь стратегия множественной верности. В частности, эта стратегия использует богатые выборки с низкой точностью для исследования пространства параметров и получения качественно (но еще не количественно) правильного описания общей тенденции приближенного отношения ввода-вывода. Между тем, эта стратегия использует доступные выборки с высокой точностью для эффективного уточнения результатов с низкой точностью, тем самым обеспечивая количественную корректность обученной суррогатной модели.

2.2 Пример

Давайте посмотрим на пример использования подхода множественной точности для достижения целевой точности модели с помощью всего лишь нескольких высококачественных обучающих выборок.

В этом примере наши обучающие образцы с низкой / высокой точностью показаны на рис. 3 (a) вместе с истинной функцией, которую мы хотим аппроксимировать. Мы можем видеть, что образцы с низкой точностью не точны, поскольку они далеки от истинной кривой функции. Тем не менее, они соответствуют общей тенденции истинной функции, которую можно использовать с помощью подхода мульти-верности для повышения эффективности обучения модели.

На рис. 3 (b) мы видим, что количество высококачественных обучающих выборок далеко не достаточно, поскольку подобранная суррогатная модель неспособна уловить характеристики базовой функции. На рис. 3 (c), однако, путем дополнения нескольких образцов с высокой точностью большим количеством качественно правильных образцов с низкой точностью, подход с множественной точностью может дать гораздо лучший прогноз, который идеально согласуется с истинной функцией.

3. Активное обучение

3.1 Основная идея

Платите меньше Получайте больше.

При построении суррогатной модели мы хотим использовать как можно меньше обучающих выборок, чтобы достичь точности прогнозирования целевой модели. Напомним, что создание обучающих выборок связано с запуском дорогостоящих компьютерных симуляций. В результате меньшее количество обучающих выборок означает более высокую эффективность получения суррогатной модели.

Раньше люди, как правило, равномерно распределяли обучающие выборки по всему пространству параметров, чтобы гарантировать точность модели. Однако такая практика может также привести к значительной трате вычислительных ресурсов: аппроксимированное соотношение ввода-вывода, как правило, не является одинаково «сложным» в разных областях пространства параметров, поэтому не заслуживает одинакового количества обучающих данных.

Вместо этого более разумным способом было бы пополнять обучающий набор данных по мере обучения. Таким образом, суррогатная модель может активно исследовать ландшафт приближенного отношения ввода-вывода и добавлять образцы в регионах, где модель «считает» свои прогнозы неточными.

Функция обучения играет ключевую роль в активном обучении, поскольку определяет, какой образец добавить к существующему набору обучающих данных. Функции обучения крафтингу - активная область исследований. В целом функции обучения отличаются друг от друга с точки зрения преследуемых целей.

Ниже мы обсудим одну конкретную функцию обучения, которая направлена ​​на построение суррогатной модели, которая будет точной во всем пространстве параметров. Эта функция обучения желательна, когда обученная суррогатная модель позже используется для выполнения параметрических исследований, анализа чувствительности и визуализации отношения ввода-вывода.

3.2 Ожидаемая ошибка прогноза (EPE)

Эта функция обучения выделяет следующую обучающую выборку в то место, где суррогатная модель имеет наибольшую ожидаемую ошибку предсказания. Это имеет интуитивный смысл, поскольку именно так суррогатная модель может учиться быстрее всего.

В машинном обучении ожидаемую ошибку прогноза можно записать как комбинацию члена смещения и члена дисперсии. Это хорошо известное разложение дисперсии смещения:

Для реализации этой функции обучения требуется, чтобы используемая суррогатная модель могла оценивать неопределенность прогноза (т.е. дисперсию). Одним из типов суррогатной модели, удовлетворяющей этому требованию, является гауссовский процесс.

Очевидно, мы не знали бы заранее истинное значение функции f (x) (иначе нам не нужно будет строить суррогатную модель. чтобы приблизить это!). Следовательно, необходимо оценить член смещения в приведенном выше уравнении. Один из способов сделать это - перекрестная проверка. Подробные реализации обсуждаются Лю и др. [1].

4. Основные выводы

В этом блоге мы обсудили некоторые передовые концепции суррогатного моделирования:

  • Суррогатное моделирование с градиентным усилением, которое включает градиенты выходных данных по отношению к входным данным при обучении модели для повышения точности прогнозирования модели.
  • Множественное суррогатное моделирование, которое объединяет несколько количественно правильных обучающих данных с высокой точностью со многими качественно правильными обучающими данными с низкой точностью, чтобы обучить высокоточную суррогатную модель с минимальными вычислительными затратами.
  • Активное обучение, которое побуждает суррогатную модель активно исследовать пространство параметров и добавляет обучающие образцы в регионах, где она может изучить больше всего.

Дальнейшее чтение:

[1] Х. Лю, Дж. Цай, Ю.-С. Онг. Подход с адаптивной выборкой для метамоделирования Кригинга за счет максимизации ожидаемой ошибки прогнозирования. Computers & Chemical Engineering, 106 (2): 171–182, ноябрь 2017 г.

[2] Александр И. Форрестер, Андраш Собестер, Энди Дж. Кин, Инженерное проектирование с помощью суррогатного моделирования: Практическое руководство, 2008.

об авторе

Я доктор философии. исследователь, работающий над количественной оценкой неопределенности и анализом надежности для аэрокосмических приложений. Статистика и анализ данных составляют основу моей повседневной работы. Мне нравится делиться тем, что я узнал в увлекательном мире статистики. Проверьте мои предыдущие сообщения, чтобы узнать больше, и свяжитесь со мной в Medium и Linkedin.