Как наша модель учится — Эндрю Нг

В дополнение к предыдущей проблеме смещения/дисперсии, на этот раз мы рассмотрим, как наши модели учатся (минимизируют ошибку/затраты), рассматривая кривые обучения. Этот пост будет охватывать 3 случая: исходная кривая обучения, ситуация с высоким смещением и ситуация с высокой дисперсией.

Оригинальная кривая обучения

Сначала, когда обучающие данные имеют только один пример, модель будет точной и не будет иметь ошибок. Однако по мере увеличения обучающих данных ошибка будет увеличиваться. Напротив, если мы применим модель (обученную на обучающих данных и имеющую параметры, которые лучше всего подходят для обучающих данных) к нашему набору перекрестной проверки, ошибки возрастут. Ошибки будут сходиться друг с другом, потому что ошибки не могут увеличиваться бесконечно.

Проблема высокого смещения

Когда гипотеза имеет проблему с высоким смещением, и ошибка обучения, и ошибка перекрестной проверки сходятся, но сходятся к более высокой ошибке. Это связано с тем, что когда гипотеза имеет проблему с высоким смещением, это означает, что в модели отсутствует что-то важное, и простое добавление дополнительных данных не решит проблему. Это можно объяснить с помощью рисунка ниже.

Проблема высокой дисперсии

Когда гипотеза имеет проблему с высокой дисперсией, то получение большего количества данных для обучения поможет обобщить нашу модель, поскольку ошибки могут сходиться, если размер данных становится больше. Также причина, по которой существует большой разрыв между ошибкой перекрестной проверки и ошибкой обучения, заключается в том, что функция гипотезы имеет несколько высокополиномиальных функций (более сложных) и в первую очередь специализирована для обучающего набора. Причину, по которой сбор большего количества обучающих данных помогает обобщить модель, можно объяснить с помощью рисунка ниже.