Помню, когда я только начинал свое путешествие по машинному обучению, я был сильно ошеломлен. Много технического жаргона. Какие-то удобоваримые, какие-то и вовсе идут выше головы.

Если ты новичок, я тебя чувствую. Это новая серия, которую я запускаю, чтобы объяснить некоторые из распространенных жаргонов в сообществе машинного обучения. Каждый пост будет коротким, по существу, без лишних слов и достаточно интуитивно понятным для любого новичка. Так что будьте начеку.

Набор поездов:

Это записи/выборки/точки данных, которые мы выбираем из всего набора данных, который у нас есть для обучения модели.

Это примеры, которые помогают нашей модели сделать предположение и измерить, насколько хорошо она сработала, а затем повторить, но в следующий раз сделать разумное предположение. Это то, что мы называем фазой обучения, на которой модель изучает скрытый шаблон и информацию из данных, которые полезны для задачи, которую мы хотим выполнить, будь то регрессия, классификация, ранжирование или что-то еще.

Надеюсь, теперь понятно, что означает набор поездов.

После обучения вашей модели на поезде нам нужно оценить производительность обученной модели, чтобы увидеть, насколько хорошо она усвоила шаблоны. Теперь вам не нужно оценивать производительность модели на наборе поездов, потому что вы использовали одни и те же точки примера для ее обучения.

Аналогия: точно так же, как проверка себя на том же материале, который вы использовали для изучения навыка, не является хорошим параметром для проверки того, сколько вы на самом деле выучили.

Но прежде чем понять набор проверки, нам нужно немного углубиться и лучше понять механику алгоритма машинного обучения. Убедитесь, что вы понимаете разницу между параметрами и гиперпараметрами модели, а если нет, загляните в эту ветку.

Время викторины. Подумайте, а затем переходите к ответу.

В: Производительность нашей модели зависит от:

а) Только данные.

б) Изучение гиперпараметров.

в) Выбор модели.

d) Другие шаги в процессе разработки, такие как очистка данных, понимание данных и придание характеристик.

д) все вышеперечисленное.

Ага. ответ E. Все вышеперечисленное.

Проверочный набор:

Мы рассмотрели процесс обучения для одной модели. Но мы пробуем разные модели с разными настройками, чтобы определить, какая из них работает лучше всего, но не любую модель, модель, которая хорошо работает для выбранной нами бизнес-метрики [KPI].

Но сначала ответьте на вопрос: как вы выберете лучшую баскетбольную команду страны?

Проводите матчи лиги между разными командами одного города. Выберите лучшую команду из каждого города. Затем проведите финальные матчи, чтобы выбрать лучшую команду из команд, выбранных в предыдущем раунде. Довольно просто и понятно.

То же самое касается машинного обучения. Здесь разные города — разные алгоритмы обучения вроде Logistic Regression, Naive bayes, Decision tree, Support vector machines, and many more.

Пример: линейная регрессия: один город. Различные модели в этом городе = линейная регрессия с разными значениями гиперпараметров и разными методами определения характеристик. Выберите лучшую модель из этого города, используя проверочный набор.

Сделайте это для каждого другого алгоритма, который вы собираетесь попробовать.

Чтобы выбрать лучшую модель, выберите лучшую модель из каждой модели города с помощью значений оценки проверки.

Тестовый набор:

Мы используем набор для обучения и проверки для обучения модели и выбираем модель с лучшим гиперпараметром и различными настройками.

Тогда для каких целей используется Тестовый набор?

Перед развертыванием модели мы хотим получить представление о том, как модель будет вести себя в реальных условиях, чтобы решить, полезно ли ее развертывать или нет?

В этом нам поможет тестовый набор.

Помните, что мы должны пропустить тестовый набор через модель только один раз. И мы обычно делаем это в конце.

Но почему бы и для этой цели не использовать проверочный набор? Потому что мы уже использовали его для выбора лучшей модели. Это не даст нам реальных результатов. Эта проблема также известна как DATA LEAKAGE в мире машинного обучения.

Примечание:

Резюме:

Набор для обучения:набор точек данных для обучения модели.

Проверочный набор: набор точек данных для выбора наилучшей модели.

Тестовый набор: набор точек данных, которые вы использовали для оценки производительности модели, чтобы увидеть, как модель будет вести себя в реальных условиях.

Если вам понравилась статья, ваша поддержка будет высоко оценена.