В машинном обучении «разделитель» относится к инструменту или методу, который используется для разделения набора данных на отдельные подмножества для обучения и тестирования модели машинного обучения.

Разделение набора данных является обычной практикой в ​​​​машинном обучении, чтобы избежать чрезмерной подгонки модели к обучающим данным и оценить эффективность обобщения модели на невидимых данных. Как правило, производится случайное разделение с фиксированным соотношением (например, 80 % для обучения и 20 % для тестирования) или заранее заданное количество кратностей (k) для перекрестной проверки.

В этой статье мы рассмотрим разницу между пропуском и перекрестной проверкой Kfold в машинном обучении.

пропуск

В машинном обучении «исключение» относится к методу оценки модели, при котором часть доступных данных откладывается или «исключается» из процесса обучения и зарезервирована для тестирования производительности модели.

Этот метод часто используется для оценки того, насколько хорошо модель будет обобщать новые, невидимые данные. Обучающие данные используются для обучения модели, а оставшиеся данные используются для оценки производительности модели на данных, которые она раньше не видела. Это может помочь предотвратить переоснащение, которое происходит, когда модель слишком точно настраивается на обучающие данные и плохо работает с новыми данными.

Метод «исключения» может быть реализован несколькими способами, такими как разделение данных на наборы для обучения и тестирования, использование методов перекрестной проверки или использование набора задержек. Выбор метода будет зависеть от размера и характера набора данных, а также от конкретных требований решаемой задачи машинного обучения.

k-кратная перекрестная проверка

В машинном обучении «к-кратная перекрестная проверка» — это метод, используемый для оценки производительности модели машинного обучения в наборе данных.

K-кратная перекрестная проверка включает в себя разделение набора данных на k разделов одинакового размера или «складок». Модель обучается k раз, при этом каждая кратность служит тестовыми данными один раз, а оставшиеся k-1 кратности используются в качестве обучающих данных. Показатели производительности, такие как точность или ошибка, затем усредняются по k итерациям, чтобы обеспечить более точную оценку производительности модели.

K-кратная перекрестная проверка — популярный метод, поскольку он позволяет более надежно оценить производительность модели, используя все доступные данные как для обучения, так и для тестирования. Это также помогает предотвратить переоснащение, так как модель проверяется на данных, которые она не видела раньше, при каждом свертывании.

Обычно значения k находятся в диапазоне от 5 до 10, причем 10 является наиболее часто используемым значением. Однако выбор k зависит от размера и характера набора данных, а также от конкретных требований решаемой задачи машинного обучения.

KFold против отказа

И «исключение», и «к-кратная перекрестная проверка» — это методы, используемые в машинном обучении для оценки производительности модели в наборе данных. Однако между ними есть некоторые ключевые различия:

  1. Методология. Техника исключения включает разделение набора данных на два подмножества: обучающий набор и набор для тестирования. Модель обучается на обучающем наборе и оценивается на тестовом наборе. Напротив, k-кратная перекрестная проверка включает в себя разделение набора данных на k сгибов одинакового размера. Модель обучается k раз, при этом каждая кратность служит тестовыми данными один раз, а оставшиеся k-1 кратности используются в качестве обучающих данных.
  2. Размер выборки. В методе исключения используется только один набор тестов и один обучающий набор, в то время как при перекрестной проверке k-fold используются k наборов тестов и k обучающих наборов. Это означает, что перекрестная проверка в k-кратном порядке обеспечивает более надежную оценку производительности модели, поскольку она использует больше данных для тестирования и обучения.
  3. Компромисс смещения и дисперсии.Метод исключения может иметь более высокую дисперсию в оценке производительности, поскольку набор тестов меньше, и, следовательно, он может не отражать весь набор данных. С другой стороны, перекрестная проверка в k-кратном порядке обеспечивает более точную оценку производительности модели, поскольку она использует больше данных как для тестирования, так и для обучения.
  4. Сложность вычислений: перекрестная проверка в k-кратном размере может быть более затратной с точки зрения вычислений, чем метод исключения, поскольку требует, чтобы модель обучалась и оценивалась k раз.

Заключение

Таким образом, метод исключения проще и менее затратен в вычислительном отношении, но может обеспечить менее надежную оценку производительности модели из-за меньшего набора тестов. Напротив, k-кратная перекрестная проверка более надежна, но требует больше вычислительных ресурсов. Выбор того, какой метод использовать, зависит от конкретных требований задачи машинного обучения.