«Лучшая» модель линейной регрессии

Линейная регрессия - один из наиболее широко используемых методов прогнозного анализа. Это структура, которая делает себе имя, потому что она проста и может быть легко использована в различных областях. Основная цель этого исследования - численное путешествие для тех, кто раньше касался линейной регрессии и хочет остановиться на ее важных моментах. В этом путешествии есть необходимые остановки для создания модели линейной регрессии, и, что наиболее важно, она раскрывает концепцию «лучшего» для кого и для чего.

Что такое линейная регрессия?

Линейная регрессия, которую мы рассмотрим в разделе «Машинное обучение», представляет собой тип прогнозного анализа, используемый для установления связи между переменными через модель. Основная цель этой структуры - получить линейную линию, которая будет представлять фактические данные через функцию, и получить информацию о новых данных, которые будут добавлены с помощью этой линии.

Итак, что значит представлять данные? Что означает понятие «лучший» в строке, которая «наилучшим образом» представляет точки данных?

Что самое лучшее" ?

Предположим, у нас есть точки данных со значениями оси x-y. Давайте исследуем образцы моделей, нарисовав различные линейные линии на этом наборе данных соответственно. На каком этапе, по вашему мнению, данные представлены «наилучшим» или близким к «наилучшим»?

Пора демонтировать «лучший» релятивизм. При выборе эффективной модели линейной регрессии секрет соответствия модели данным состоит в том, чтобы представить модель с наименьшей ошибкой, которую мы называем «стоимостью».

Стоимость рассчитывается путем суммирования квадратов расстояний между линейной моделью и доступными точками данных. В некотором смысле, это численный метод измерения того, насколько хорошо наша модель соответствует этим данным. Следовательно; чем дальше линейная функция от доступных точек данных, тем больше стоимость. Это общее значение, называемое «суммой квадратов остатков», необходимо вычислить для разных функций и выбрать наиболее оптимальную.

Создание «лучшей» модели

Давайте повторим некоторые термины над y = ax + b, также известными как общая функция.

В этой структуре; y - это зависимая переменная, x - это аргумент (независимая переменная), a - это параметр переменной x, а b - перехват.

С другой стороны, ax + b - это функция прогнозирования, модель. Сумма квадратов разностей между оценочными результатами и фактическими результатами даст сумму квадратов остатков.

Теперь мы знаем основную цель. Теперь перейдем к цели с общими концепциями.

Модель линейной регрессии, которую необходимо получить, также называется Гипотезой. Коэффициенты, необходимые в модели, называются параметрами. Путем сравнения созданной модели с текущими точками данных получается значение функции стоимости. Значение m - это количество доступных данных. При выборе «лучшей» модели цель состоит в достижении функции гипотезы, сформированной параметрами, которые минимизируют это значение функции затрат.

Первоначально θ0 и θ1 присваиваются случайные числа и вычисляется значение функции затрат. Затем эти числа изменяются, и определяется новое значение функции стоимости, и эта итерация продолжается. На полученном графике функции затрат достигается точка минимума.

Как видно, мы нашли новые значения по разным моделям и построили эти значения под именем J (Q). Значение по оси x, где J (Q) минимально, также сообщает нам значение, которым должно быть значение Q1.
Хотя эту структуру можно легко наблюдать в моделях, которым нужен единственный параметр, будет трудно и почти невозможно наблюдать, когда необходимо много параметров. Следовательно, если мы поймем здесь логику и сделаем то же самое в многомерных структурах без визуализации; Опять же, можно будет найти оптимальные значения параметров.

Секретный герой: градиентный спуск

Градиентный спуск - это своего рода алгоритм оптимизации. Он использует производную, чтобы найти точку минимума. Таким образом, он обновляет значения параметров, добавляя положительные или отрицательные значения в зависимости от наклона. Он может находить разные локальные минимумы в зависимости от начальных значений.

Независимо от того, сколько параметров нам нужно, эта итерация, в которой значения параметров обновляются одновременно, направлена на поиск значений параметров, которые приводят к минимальному значению функции затрат. Итерация завершается, когда значение производной равно нулю или близко к нулю.

Подводя итог, у нас есть точки данных. Нам нужны результаты функции стоимости, чтобы увидеть, насколько параметры соответствуют данным. Среди этих результатов нам нужны значения параметров наименее затратного. Хотя это более удобно с точки зрения визуализации и логики в одномерной переменной, эта визуализация затруднена в многопараметрических, то есть многомерных представлениях модели. Итак, в многомерных структурах нам нужно обновлять параметры с помощью итераций, пока мы не найдем точку минимума. Находя этот минимум, мы обновляем параметры в цикле, используя производную.

Давайте посмотрим на пример набора данных, где нам нужно более одного параметра, и соблюдаем некоторые термины.

Наша функция гипотез будет более загруженной.

Развяжите узел с масштабированием функций

Это один из важных шагов с точки зрения времени и оптимизации градиентного спуска. Значения преобразуются в аналогичные структуры, и шаги градиентного спуска ускоряются. На этом этапе функции масштабируются. Есть разные подходы.

Во-первых, его можно получить, разделив каждую характеристику на максимум ее вида. Кроме того, можно указать значения от -1 до +1. Но чаще всего ставят его между 0-1. Другой метод масштабирования - это нормализация среднего в форме (среднее значение) / максимальное значение.

Перейти со скоростью обучения (α)

Это значение α в алгоритме градиентного спуска. Это важное значение для более быстрого продвижения итерации. Если он слишком большой, будут брызги.
На очень низких уровнях желаемый выигрыш не может быть достигнут по времени. Меньшие значения можно будет проверить до тех пор, пока будет наблюдаться уменьшение значения J (Q) на каждой итерации.

Волшебная шляпа: извлечение признаков

Получение новых функций из существующих также может способствовать построению модели. Следует учитывать, что выбираемая здесь модель позволяет избежать переобучения и минимизировать значение функции затрат.

Оценка модели

Насколько успешна наша модель? Каковы наши критерии успеха?

Давайте продолжим с предположением, что мы нашли параметры и что у нас есть модель. На этом этапе давайте откроем термины R2 и p-значение для R2, которые покажут производительность модели. Затем давайте объясним, какую ценность должны иметь эти термины.

Мы видим формулу R2. Давайте шаг за шагом посмотрим, как находить термины в формуле.

Среднее значение каждой точки данных на оси Y - это среднее значение Y. Из этого значения мы получаем SS (среднее), когда складываем квадраты расстояний значений y для каждой точки данных.

Мы применим ту же логику к созданной нами линии подгонки.

Значение R2 - это способность нашей функции объяснять зависимую переменную. Он указывает, какой процент дисперсии зависимой переменной можно объяснить.

Кроме того, необходимо вычислить p-значение для R2, чтобы понять, не повезло ли нашей модели. Мы находим это значение над значением F.

Мы знаем, как рассчитывается первая часть. Условия во второй части:

Pfit - количество параметров в подгонке,

Pmean - количество параметров в средней строке,

Мы пролили свет на все неизвестные термины в нашей формуле со значением n, а также на количество элементов в информации вашего набора данных.

Если наша модель достаточно хороша, значения R2 и F должны быть большими, а значение p должно быть небольшим числом. Итак, как мы можем получить значение p после нахождения значения F? Короче говоря, к нему можно получить доступ через график. Он рассчитывается по счету площади с распределением значений F. Вот и все!

— — — — — — — — — — — — — — — — — — — — — — — — ——

За каждой эффективной моделью стоит градиентный спуск ...

Чашка кофе за каждый продуктивный день…

Резюме

Мы приближаемся к последней остановке нашего пути. Если мы посмотрим на остановки, которые мы проезжали во время нашего путешествия; основанный на определении модели линейной регрессии, он связывает переменные и дает быстрые и практичные решения во многих областях.

Затем мы рассмотрели этапы решения этой структуры. В этом разделе мы согласились с тем, что относительность концепции «наилучшего» сводится к математике и что наша модель с наименьшими затратами дает нам «наилучшее» решение.

Присмотревшись к понятию «стоимость», мы натолкнулись на структуру градиентного спуска. Теперь мы подошли к функции мозга, из которой состоит наша модель. Мы обнаружили, что структура, которая достигает оптимума через производную, работает в цикле с одновременным обновлением параметров.

Чтобы структура градиентного спуска развивалась более эффективно, мы затронули такие концепции, как масштабирование функций, скорость обучения, и подчеркнули цели этих концепций. При формировании нашей модели мы показали, насколько хорошо модель соответствует данным. В этой части, которую мы рассматриваем как своего рода критерий успеха, мы завершили расчет значений R2 и F. Наконец, мы научились интерпретировать, пригодна ли модель к использованию или нет, обращаясь к ценностям, которые должна иметь успешная модель.

Хочу выразить благодарность StatQuest with Josh Starmer и Andrew Ng, которые вдохновили меня на подготовку этого исследования.

Буду рад получить ваш отзыв.

Увидимся в нашем следующем путешествии ...

Наслаждайся своим кофе!