Понимание минимизации эмпирического риска (часть 2)

Самоадаптивное обучение: помимо эмпирической минимизации рисков (arXiv)

Автор: Лан Хуан, Чао Чжан, Хунъян Чжан

Аннотация: мы предлагаем самоадаптирующееся обучение — новый алгоритм обучения, который динамически исправляет проблемные метки обучения с помощью прогнозов модели без дополнительных вычислительных затрат — для улучшения обобщения глубокого обучения для потенциально поврежденных обучающих данных. Эта проблема имеет решающее значение для надежного обучения на данных, которые искажены, например, шумами меток и образцами вне распространения. Однако стандартная минимизация эмпирического риска (ERM) для таких данных может легко переоценить шумы и, таким образом, будет иметь неоптимальную производительность. В этой статье мы наблюдаем, что предсказания модели могут существенно улучшить процесс обучения: самоадаптивное обучение значительно улучшает обобщение по сравнению с ERM при различных уровнях шума и смягчает проблему переобучения как при естественном, так и при состязательном обучении. Оценим кривую пропускной способности самоадаптивного обучения: ошибка теста монотонно убывает по отн. емкость модели. Это резко контрастирует с недавно обнаруженным явлением двойного спуска в ERM, которое может быть результатом переобучения шумов. Эксперименты с наборами данных CIFAR и ImageNet подтверждают эффективность нашего подхода в двух приложениях: классификация с шумом меток и выборочная классификация. Мы публикуем наш код на https://github.com/LayneH/self-adaptive-training.

2. Минимизация взвешенного эмпирического риска: коррекция систематической ошибки при выборе выборки на основе выборки по важности (arXiv)

Автор:Робин Фогель, Мастане Ашаб, Стефан Клемансон, Шарль Тилье

Аннотация: мы рассматриваем задачи статистического обучения, когда распределение P' обучающих наблюдений Z'1,…,Z'n отличается от распределения P, связанного с риском, который нужно минимизировать (называемым тестовое распределение), но по-прежнему определяется в том же измеримом пространстве, что и P, и доминирует над ним. В нереалистичном случае, когда отношение правдоподобия Φ(z)=dP/dP′(z) известно, можно напрямую расширить подход минимизации эмпирического риска (ERM) к этой конкретной настройке трансферного обучения, используя ту же идею, что и для выборки по важности. , путем минимизации взвешенной версии эмпирического функционала риска, вычисленного на основе «смещенных» обучающих данных Z′i с весами Φ(Z′i). Хотя функция важности Φ(z), как правило, на практике неизвестна, мы показываем, что в различных ситуациях, часто встречающихся на практике, она принимает простой вид и может быть непосредственно оценена по Z′i и некоторой вспомогательной информации о статистической совокупности P Затем с помощью методов линеаризации мы доказываем, что способность к обобщению вышеупомянутого подхода сохраняется при включении полученных оценок Φ(Z′i) во взвешенный эмпирический риск. Помимо этих теоретических гарантий, численные результаты обеспечивают убедительные эмпирические доказательства актуальности подхода, пропагандируемого в этой статье.

3. RFN: основанный на случайных признаках метод Ньютона для минимизации эмпирического риска при воспроизведении ядерных гильбертовых пространств (arXiv)

Автор:Тинг-Джуй Чанг, Шахин Шахрампур

Аннотация: При обучении с учителем с использованием методов ядра мы часто сталкиваемся с крупномасштабной минимизацией конечной суммы в воспроизводящем ядерном гильбертовом пространстве (RKHS). Крупномасштабные задачи с конечной суммой могут быть решены с использованием эффективных вариантов метода Ньютона, где гессиан аппроксимируется с помощью подвыборок данных. Однако в RKHS зависимость штрафной функции от ядра делает неприменимыми стандартные подходы к подвыборке, поскольку матрица грамм не всегда доступна в низкоранговой форме. В этой статье мы отмечаем, что для этого класса задач можно естественным образом использовать ядерную аппроксимацию для ускорения метода Ньютона. Сосредоточив внимание на рандомизированных функциях для аппроксимации ядра, мы предлагаем новый алгоритм второго порядка, который обладает локальной суперлинейной сходимостью и глобальной линейной сходимостью (с высокой вероятностью). Мы получаем теоретическую нижнюю границу числа случайных признаков, необходимых для того, чтобы аппроксимированный гессиан был близок к истинному гессиану в смысле нормы. Наши численные эксперименты на реальных данных подтверждают эффективность нашего метода по сравнению с несколькими эталонными тестами.

4. Эмпирическая минимизация риска при случайной цензуре: теория и практика (arXiv)

Автор:Гийом Оссе, Стефан Клемансон, Франсуа Портье

Аннотация: мы рассматриваем классическую задачу обучения с учителем, в которой непрерывная неотрицательная случайная метка Y (т. е. случайная продолжительность) должна быть предсказана на основе наблюдения за случайным вектором X со значением в Rd с d≥1. с помощью правила регрессии с минимальной ошибкой наименьших квадратов. В различных приложениях, начиная от контроля качества в промышленности и заканчивая общественным здравоохранением и анализом кредитного риска, например, обучающие наблюдения могут подвергаться цензуре справа, а это означает, что статистическое обучение опирается не на независимые копии (X, Y), а на набор n ≥ 1 независимые реализации тройки (X,min{Y,C},δ), где C — неотрицательная с.в. с неизвестным распределением, моделирование цензуры и δ = I {Y ≤ C} указывает, правильно ли цензурирована продолжительность или нет. Поскольку игнорирование цензуры при расчете риска может явно привести к серьезной недооценке целевой продолжительности и поставить под угрозу прогноз, мы предлагаем рассмотреть подключаемую оценку истинного риска, основанную на оценке Каплана-Мейера условной функции выживания цензуры. C при заданном X, называемом риском Каплана-Мейера, для минимизации эмпирического риска. В мягких условиях установлено, что скорость обучения минимизаторов этого смещенного/взвешенного эмпирического функционала риска имеет порядок OP(log(n)/n−−−−−−−√) при игнорировании проблем смещения модели, присущих пробке. - по оценке, как это может быть достигнуто при отсутствии цензуры. Помимо теоретических результатов представлены численные эксперименты, чтобы проиллюстрировать актуальность разработанного подхода.

Понимание минимизации эмпирического риска (часть 2)

Вопросы по теме