Машинное обучение - Введение в моделирование №2

При разработке моделей машинного обучения обученная модель должна хорошо работать с новыми или невидимыми данными. Мы разделяем наши существующие данные на 2 в качестве обучающих и тестовых наборов данных для имитации новых / невидимых данных. В частности, первая часть представляет собой большее подмножество данных, используемых в качестве обучающего набора (например, с учетом 80% исходных данных), вторая - меньшее подмножество и используется в качестве тестового набора (оставшиеся 20% Данные).

Например, мы передаем данные алгоритму, и с помощью этих данных алгоритм изучает структуру (например, модели прогнозирования цен на жилье). Другими словами, он изучает влияние факторов и аспекты этих эффектов. Мы делим наш набор данных на 2, чтобы проверить успешность этих алгоритмов, которые мы создали в процессе обучения. Допустим, у нас есть набор данных из 1000 наблюдений, мы выделяем 800 для обучения и тестируем оставшиеся 200, чтобы узнать, обучили ли они модель.

Выбор переменной

Во время исследований моделирования у нас может быть 5, 10 или даже 100 независимых переменных, в зависимости от размера нашего набора данных. Мы попытаемся оценить зависимую переменную Y с помощью этих независимых переменных. В исследованиях по моделированию мы не пытаемся сохранить в модели все переменные, цель - попытаться найти наибольшее объяснение с наименьшим количеством переменных.

Выбор модели

На первый план выходят два метода.

Постарайтесь убедиться, что среди моделей, созданных с помощью возможных комбинаций переменных, выбрана лучшая модель.
Попробуйте выбрать модель среди различных установленных моделей.

Как выбрать модель?

Для задач регрессии используются коэффициент объяснения и производное значение RMSE (метрика измерения ошибок).
Для задач классификации используется производное значение правильного коэффициента классификации (метрика для оценки успешности модели).

Переоснащение

Модель изучила закономерности, характерные для обучающих данных, но плохо предсказывала новые, невидимые данные.

Другими словами, мы делим данные на две части: тестовая и обучающая. Он очень хорошо усваивает обучающий набор алгоритмов. Однако, когда мы пытаемся предсказать модель с набором данных, который она не видит, производительность прогнозирования начинает снижаться. Такая ситуация называется переобучением.

Детерминированные модели и стохастические модели

В детерминированных моделях предполагается, что существует определенная взаимосвязь между переменными. Связь между двумя переменными обозначена линией. Другими словами, выход модели полностью определяется значениями параметров.

Стохастические модели - это вероятностные модели. Здесь случайная ошибка.

Как видно на графике выше, в стохастических моделях, когда мы пытаемся предсказать взаимосвязь между X и Y, мы не можем выразить ее линейно. Есть предел погрешности.

Линейные и нелинейные модели

Связь между X и Y линейна, если выражена прямой линией. Если отношения между переменными моделируются с использованием кривой, древовидных методов или других методов вместо линии, это называется нелинейными методами.

Машинное обучение - это просто процесс перехода от математики к статистике. В то время как математика включает точность, статистика включает вероятность. В статистике нет уверенности, всегда есть ошибки и догадки.

Методы проверки модели

Мы строим модель, чтобы найти отношения между зависимыми и независимыми переменными. Например, зависимая переменная, которую мы хотим спрогнозировать, - это цена домов и наши независимые переменные, размер дома, его местоположение, этаж и т. Д. После подбора модели нам необходимо оценить результаты модели. . Эти исследования называются методами проверки моделей. В регрессионных моделях и классификационных моделях используются разные методы.

Метод удержания

Допустим, у вас есть исходный набор данных. Мы делим набор данных с 1000 наблюдений на 80% - 20% как набор для обучения и тестирования. Мы тренируемся с 800 наблюдениями и тестируем с 200 наблюдениями. Например, мы изучаем коэффициенты в модели прогнозирования цен на жилье с помощью обучающего набора, а затем проверяем, насколько хорош этот прогноз с помощью 200 наблюдений.

В методе Holdout, если количество наблюдений невелико, мы не сможем разделить набор данных как обучающий и тестовый. Например, когда у нас есть 50 наблюдений, мы не можем разделить данные для их обучения и тестирования.

Метод перекрестной проверки K-сгибов

Набор данных разделен на k разделов. На первой итерации первая кратность используется для тестирования модели, а затем остальные используются для обучения модели. Во второй итерации вторая кратность используется в качестве набора для тестирования, а остальные служат в качестве набора для обучения. Этот процесс повторяется до тех пор, пока все складки не будут использованы в качестве набора для тестирования.

Когда полученные ошибки усредняются, это будет наша ошибка проверки (обучения). Затем мы тестируем нашу модель с набором тестов, который мы разделили в начале исследования.

Нам всегда нужно разделить набор данных на два набора: Test и Train. После этого разделения нам всегда нужно применять метод K-кратности по обучающей выборке. Нам нужно вычислить правильную ошибку обучения на обучающем наборе, отложить его в сторону и протестировать модель, которую мы создали, на тестовом наборе.

Короче говоря, у нас есть исходный набор данных. Мы разделим этот набор данных на два как тестовый поезд, 80% -20%. Мы проверяем, используя эти 80% данных поездов. Делаем это в 5-10 раз и строим модель отсюда. При ошибке обучения в полученной модели тестируем на тестовых данных.

Оставить один метод

Это частный вариант метода K-складок. В K мы разделяем набор данных на 5–10 частей, исключаем одну складку на каждой итерации и используем оставленную часть для построения и тестирования моделей с другими свертками. Здесь количество выборок в наборе данных равно n количеству кластеров. То есть предполагается n кластеров. Как и K, все они тестируются соответственно.

Например, у нас есть 1000 наблюдений. Каждый раз модель соответствует 999 единицам наблюдения, а затем одна единица наблюдения проверяется. Во второй итерации исключается другая единица наблюдения, и модель дополняется всеми другими наблюдениями, а затем исключенная единица проверяется. Таким образом анализируется весь набор данных.

Хотя этот метод можно применить теоретически, его трудно использовать по мере роста набора данных.

Метод начальной загрузки

Подобно другим методам, он основан на таких подходах, как как-то разделить набор данных на два, давайте обучим модель с одним и протестируем с другой. Bootstrap работает как повторная выборка в дополнение к тому, что делают другие методы.

Например, у нас есть исходный набор данных. Из этого набора данных создаются образцы начальной загрузки, так что набор данных меньше количества наблюдений. Например, таких 10, как Bootstrap1, Bootstrap2, Bootstrap3. Модель соответствует этим 10 данным. Подбираемые модели тестируются с использованием подхода набора тестов, а результаты оцениваются путем взятия среднего значения поездов и тестов отдельно.

Подводя итог, он используется для получения данных из набора данных замещающим способом. Модель подбирается для каждого из новых созданных данных. Эти модели проверяются, и результаты оцениваются соответствующим образом.

В результате наиболее распространенным из вышеперечисленных методов является метод перекрестной проверки K-Fold. Когда мы рассматриваем новый набор данных, мы сначала разделим его на две части: тестовая и обучающая. Мы будем оценивать его, используя метод перекрестной проверки K-Fold на обучающем / обучающем наборе здесь, и мы создадим нашу окончательную модель и получим нашу тестовую ошибку.

В следующей статье мы расскажем вам о методах оценки успешности прогнозирования моделей ...