Горячий старт байесовской оптимизации

Настройка гиперпараметров требуется всякий раз, когда модель машинного обучения обучается на новом наборе данных. Тем не менее, от него часто отказываются, поскольку в нем отсутствует теоретическая основа, которую я ранее пытался демистифицировать здесь:

Демистификация настройки гиперпараметров
Что это такое и почему это естественно в сторонуdatascience.com

Одним из подходов, который систематизирует интеллектуальную и эффективную настройку гиперпараметров, является байесовская оптимизация, которая строит вероятностный суррогат настраиваемой задачи, чтобы рекомендовать оптимальные параметры. Он постепенно расширяет свое понимание проблемы, обновляя суррогат после каждой итерации. Следующий рисунок иллюстрирует эволюцию суррогатной модели, которая была сгенерирована OPTaaS для минимизации функции Била.

Как мы видим на первом графике (5 итераций), байесовская оптимизация сталкивается с проблемой холодного старта, потому что априорная изначально плоская и должна создать представление базовой функции, прежде чем она сможет дать «значимые» рекомендации. После 35 итераций он лучше понимает функцию Биля; суррогат очень похож на него. В этой статье мы увидим, как теплый запуск суррогатной модели может значительно улучшить производительность.

Почему теплый старт?

Из предыдущего иллюстративного примера мы понимаем, что если бы байесовский оптимизатор имел некоторую предварительную информацию об общей форме функции или ее типе, рекомендации могли бы быть лучше на раннем этапе, поскольку ему не нужно было бы тратить столько времени на инициализацию суррогат.

Более того, в контексте настройки гиперпараметров определенные конфигурации гиперпараметров моделей машинного обучения могут быть законными, но не имеют смысла на практике. Например, случайный лес с небольшим количеством деревьев будет иметь низкую точность, поэтому, вероятно, не стоит изучать конфигурации гиперпараметров в таких регионах, независимо от базового набора данных, на котором он обучается.

Теплый старт для случайных лесов

Мы собираемся изучить улучшения производительности для горячего запуска байесовской оптимизации для случайного леса. Выполняя поиск по множеству наборов данных и случайных лесов с различными конфигурациями гиперпараметров, мы можем получить представление о том, как производительность случайного леса изменяется в среднем с каждым гиперпараметром.

Обладая знаниями, полученными в результате этих тестов, мы можем направить оптимизатор для поиска в тех областях, где модель исторически работала хорошо, избегая испытания исторически плохих конфигураций, таких как использование небольшого количества деревьев.

Полученные результаты

Для сравнения производительности мы будем использовать OPTaaS, универсальный байесовский оптимизатор, и сравним его с версией с горячим запуском на совершенно новых наборах данных, которых он раньше не видел. Мы провели тесты на 30 совершенно новых наборах данных, и следующие графики показывают результаты для набора данных CMC, набора данных German credit и набора данных Sonar.

Как мы видим, OPTaaS с горячим запуском помогает определять лучшие конфигурации гиперпараметров намного быстрее, чем версия с холодным запуском. Последний действительно догоняет (обнадеживающе), но требует дополнительных итераций, чтобы лучше понять основные проблемы. Понятно, что необходимо принять меры предосторожности, чтобы убедиться, что конфигурации горячего запуска не слишком подходят для наборов обучающих данных, чтобы гарантировать обобщаемое улучшение производительности.

[ОБНОВЛЕНИЕ: я основал техническую компанию. Вы можете узнать больше здесь]

Расширения

Суррогаты с теплым запуском представляют собой конкурентное преимущество на начальных итерациях, поскольку предоставляют «разумные» конфигурации, которые нужно опробовать в первую очередь. Однако есть ряд расширений, которые могут помочь повысить производительность после начальных итераций. Я подробно расскажу о них в следующей статье.

А пока не стесняйтесь обращаться, если у вас есть какие-либо вопросы или хотите ли вы попробовать OPTaaS.

Горячий старт байесовской оптимизации

Почему теплый старт?

Теплый старт для случайных лесов

Полученные результаты

Расширения

Вопросы по теме