Примечания к исследованию: Регрессия законов физики на основе данных с использованием бритвы Оккама

Управляемая данными регрессия динамики Лоренца с экономией

Резюме

В предыдущей заметке мы имитируем динамику Лоренца, используя 4-слойную нейронную сеть. Несмотря на то, что в большинстве случаев он работает успешно, он по-прежнему склонен к тем, которые находятся далеко от тренировочного набора. Это распространенная проблема почти во всех видах техники регрессии и в значительной степени является формой переобучения. На рисунке ниже показан наглядный пример того, как модель более высокой размерности хорошо соответствует обучающим данным (первые пять точек), но хуже в других областях. Это побуждает нас искать метод регрессии, такой как LASSO[1], который учитывает экономичность.

Постановка проблемы

Мы стремимся идентифицировать динамику Лоренца по собранным данным моделирования. В отличие от того, что мы сделали в предыдущем посте, в котором в качестве основы были развернуты нейронная сеть и нелинейное возбуждение, на этот раз вместо этого будет использоваться библиотека моделей, похожая на серый ящик.

Линейная комбинация нелинейных моделей

Прежде чем продолжить наше путешествие, следует заметить, что динамика Лоренца представляет собой линейную комбинацию нескольких связанных членов между тремя состояниями, и тем не менее демонстрирует сложное поведение, которое на удивление распространено в мире физики.

Следуя этой подсказке, имеет смысл построить библиотеку нелинейного базиса для линейного и разреженного представления динамики. Например, некоторым разумным основанием для динамики Лоренца может быть [1, z, x², x*z, x*y, sin(y)…]. Эта идея является инновационным расширением матрицы Вандермонда в полиномиальной регрессии.

Разреженная идентификация нелинейной динамики (SINDy) [2]

Теперь у нас осталась проблема регрессии поиска наилучшей линейной комбинации нелинейной библиотеки, подходящей для эксперимента, и обратите внимание, что разреженная всегда предпочтительнее. Такую проблему можно сформулировать как настройку оптимизации, показанную ниже, и использовать штраф в одну норму для вектора параметров (ξ), чтобы получить разреженный результат.

Здесь мы использовали метод наименьших квадратов с последовательным пороговым значением (STLS, [3]), чтобы решить предыдущую проблему с помощью «ручки разрежения (λ)», выбранной вручную. STLS в основном представляет собой стандартный метод наименьших квадратов, за которым следует пороговое значение λ, весь процесс будет повторяться десятки раз.

Чтобы показать некоторую степень общности, библиотека будет построена на всех комбинациях полиномов до порядка 3 (1, x, y, z, xx, xy, xz…zzy, zzz). Траектории для «обучения» регрессии показаны на рисунке ниже для справки, обратите внимание, что мы намеренно выбрали начальную точку рядом с началом координат.

Результат без шума

В первом случае, когда шум не добавлялся, мы можем легко получить привлекательные результаты, которые эффективно восстанавливают скрытую модель за данными, как показано на следующей диаграмме. В этом идеальном случае был добавлен практически нулевой шум, настройка λ не имеет отношения к результату.

Добавляем немного перца в наш датчик

Во втором случае, с добавлением некоторого шума, который показан на рисунке ниже, пороговое значение теперь имеет решающее значение. Читатели могут найти этот процесс похожим на выбор оптимального порога при усечении сингулярных значений матрицы данных в условиях шума [4]. После того, как вы поиграете с ручкой разрежения (λ) от 0,001 до 0,025, результат будет показан, как показано на рисунке.

Заключение

Хотя создание библиотеки, совпадающей с реальной моделью за сценой, может показаться немного обманом. Этот подход оказывается элегантным и общим для большого класса задач, если библиотека имеет достаточный базисный класс. Например, в [5] с помощью SINDy из данных высокой размерности можно извлечь удивительно простую модель.

Еще одним существенным преимуществом разреженной идентификации по сравнению с нейросетевыми подходами является потенциальная надежность при работе с данными вне обучающего набора, что очевидно в данном конкретном случае.

Ссылка

[1] Р. Тибширани, «Регрессионное сокращение и отбор с помощью лассо», Журнал Королевского статистического общества. Серия Б (методическая), том 58, № 1, б.л. 267–288, 1996 г.

[2] С. Л. Брантон и Дж. Н. Куц, Наука и техника, управляемые данными: машинное обучение, динамические системы и управление. Издательство Кембриджского университета, 2019.

[3] Х. Шеффер, Г. Тран, эн Р. Уорд, «Извлечение разреженной многомерной динамики из ограниченных данных», SIAM Journal on Applied Mathematics, том 78, № 6, bll 3279– 3295, 2018.

[4] М. Гавиш и Д. Л. Донохо, «Оптимальный жесткий порог для сингулярных значений равен $4/\sqrt {3}$», в IEEE Transactions on Information Theory, vol. 60, нет. 8, стр. 5040–5053, август 2014 г., doi: 10.1109/TIT.2014.2323359.

[5] С. Л. Брантон, Дж. Л. Проктор, и Дж. Н. Куц, «Открытие основных уравнений из данных путем разреженной идентификации нелинейных динамических систем», Proceedings of the National Academy of Sciences, vol 113, no 15, bll 3932–3937, 2016.