Перекрестная проверка в науке о данных!

"Перекрестная проверка — это статистический метод оценки и сравнения алгоритмов обучения путем разделения данных на две части: одна использовалась для изучения или обучения нашей модели, а другая — для проверки нашей модели".

Вы поняли приведенные выше строки?

Посмотрим простыми словами,

При использовании некоторого набора данных мы создаем модель машинного обучения, мы часто разбиваем наш набор данных на наборы для обучения и тестирования. Набор обучающих данных обычно используется для изучения/обучения нашей модели, а набор тестовых данных используется для проверки нашей модели. Предположим, мы обучаем нашу модель на заданном наборе данных с помощью некоторого алгоритма и пытаемся выяснить точность нашей модели. Точность нашей модели может составлять 90%, 95% или, может быть, 100%. что это означает…

Наша модель хороша?

Готова ли наша модель к прогнозированию будущих данных?

Ответ - нет.

Почему наша модель не хороша, Почему наша модель не готова к прогнозированию будущих данных после предоставления нам 100% точности. Поскольку наша модель обучилась на заданном наборе данных, она уже знает данные и очень хорошо их обобщила. Когда мы пытаемся предсказать новые данные, это дает нам очень плохую точность, потому что мы не видели новых данных раньше. Это не даст нам хорошей точности и обобщенной модели.

Когда набор обучающих данных дает нам хорошую точность и всякий раз, когда приходят новые данные, он не может дать нам хорошую точность, тогда в этом случае наша модель будет переоснащена.

Чтобы решить проблему такого типа, на сцену выходит перекрестная проверка. Он делит набор данных на две части (обучающая и тестовая). В одной части, то есть в части поезда, он попытается обучить модель, а во второй части, то есть в тестовой части, он сделает прогноз, который является невидимыми данными для нашей модели. После этого мы проверим нашу модель, насколько хорошо она работает. Если модель дает нам хорошую точность на тестовых данных, это означает, что наша модель хороша, и мы можем ей доверять.

Перекрестная проверка — очень мощный инструмент, поскольку он помогает нам лучше использовать наши данные.

Когда мы строим нашу модель, нам нужно оценить производительность модели. Кроме того, есть одна из наиболее распространенных причин использования перекрестной проверки, заключающаяся в настройке параметров.

Давайте посмотрим, какие существуют типы методов перекрестной проверки и как работает перекрестная проверка.

Типы перекрестной проверки:

Метод удержания
Пропустить перекрестную проверку (LOOCV)
K-кратная перекрестная проверка
Стратифицированная перекрестная проверка
Перекрестная проверка временных рядов

Метод удержания

Метод Hold Out — самый простой из методов перекрестной проверки. Он просто делит набор данных на наборы для обучения и тестирования. Набор обучающих данных используется для обучения модели, а затем набор тестовых данных подгоняется к обученной модели, чтобы делать прогнозы. Этот метод используется, так как он менее затратный в вычислительном отношении.

2. Пропустить перекрестную проверку (LOOCV)

Перекрестная проверка с исключением одного — это особый случай метода перекрестной проверки, вместо создания двух подмножеств он выбирает одно наблюдение в качестве тестовых данных, а остальные данные — в качестве обучающих данных. Эта перекрестная проверка происходила N раз, где N — общее количество наблюдений.

Основным недостатком LOOCV является то, что, поскольку у нас много записей, таких как миллионы записей, требуется больше времени для вычислений.

3. K-кратная перекрестная проверка

Идея перекрестной проверки K-Fold проста: она делит весь набор данных на подмножества равного размера «K». После разделения набора данных первый набор выбирается в качестве тестовых данных, а оставшиеся наборы «k-1» используются для обучения данных. Ошибка рассчитывается для этого конкретного набора данных. Затем второй набор выбирается в качестве тестовых данных, а оставшиеся наборы «k-1» используются для обучения данных. Опять вычисляется ошибка. Точно так же процесс продолжается «K» раз. В конце мы берем среднее значение всех ошибок.

Основным недостатком перекрестной проверки K-Fold является то, что предположим, что у нас есть постановка задачи бинарной классификации (например, 0 или 1 класс), в этом случае иногда в наборе обучающих данных у нас есть высокие шансы получить 1. Так что наша модель обучена только в одном классе и не может предсказать другой класс.

4. Стратифицированная перекрестная проверка

Стратифицированная перекрестная проверка аналогична методу перекрестной проверки K-Fold. Чтобы устранить недостаток k-кратной перекрестной проверки, на сцену выходит стратифицированная перекрестная проверка. На каждой итерации он обрабатывает количество классов, которые должны присутствовать в наборе обучающих данных.

5. Перекрестная проверка временных рядов

При перекрестной проверке временных рядов мы не можем разделить наш набор данных на наборы данных для обучения и тестирования. Перекрестная проверка временных рядов начинается с небольшого подмножества данных для обучения и делает прогноз для будущих точек данных, а затем проверяет точность прогнозируемых точек данных.

После этого те же самые предсказанные точки данных затем включаются как часть следующего обучающего набора данных, и прогнозируются будущие точки данных. Точно так же процесс продолжается при перекрестной проверке временных рядов.

Часто задаваемые вопросы:

Что такое перекрестная проверка?

Перекрестная проверка — это статистический метод оценки и сравнения алгоритмов обучения путем разделения данных на две части, одна из которых использовалась для изучения или обучения нашей модели, а другая — для проверки нашей модели.

2. Какова цель перекрестной проверки?

Цель перекрестной проверки — проверить способность модели машинного обучения предсказывать новые данные.

3. Какие существуют типы перекрестной проверки?

Метод удержания
Пропустить перекрестную проверку (LOOCV)
K-кратная перекрестная проверка
Стратифицированная перекрестная проверка
Перекрестная проверка временных рядов

4. Зачем нам это нужно?

Поскольку наша модель обучилась на заданном наборе данных, она уже знает данные и очень хорошо их обобщила. Когда мы пытаемся предсказать новые данные, это дает нам очень плохую точность, потому что мы не видели новых данных раньше. Это не даст нам хорошей точности и обобщенной модели.

5. Уменьшает ли перекрестная проверка переоснащение?

да. Перекрестная проверка используется, чтобы избежать переобучения.

Вывод:

В этой статье мы узнали, что такое перекрестная проверка, важность перекрестной проверки в науке о данных, различные типы методов перекрестной проверки и некоторые общие вопросы…

Пожалуйста, не стесняйтесь оставлять свои комментарии, советы или ошибки.😊

Свяжитесь со мной: LinkedIn | Гитхаб | Электронная почта

УДАЧИ ОБУЧЕНИЯ!!! ❤🥀

Перекрестная проверка в науке о данных!

Типы перекрестной проверки:

Часто задаваемые вопросы:

Вывод:

Вопросы по теме