Линейная регрессия — это контролируемый алгоритм машинного обучения, который прогнозирует непрерывные выходные значения. В линейной регрессии мы обычно выполняем три шага, чтобы предсказать результат.

1. Используйте метод наименьших квадратов, чтобы подогнать линию к данным

2. Вычислить R-квадрат

3. Рассчитать p-значение

Подгонка строки к данным

В данных может быть много линий, которые можно подогнать, но мы должны рассматривать только ту, которая имеет очень меньшую ошибку.

Скажем, жирная линия («b») представляет среднее значение Y и расстояние между b и всеми точками данных, известными как невязка.

(b-Y1) — расстояние между b и первой точкой данных. Точно так же (b-y2) и (b-Y3) — это расстояние между второй и третьей точками данных и так далее.

Примечание. Некоторые точки данных меньше b, а некоторые больше, поэтому при сложении они компенсируют друг друга, поэтому мы берем квадраты суммы остатков.

SSR = (b-Y1)² + (b-Y2)² + (b-Y3)² + ………… + ……(b-Yn)² . где n - количество точек данных.

Когда для линии SSR очень меньше, линия считается наиболее подходящей линией. Чтобы найти эти наиболее подходящие линии, нам понадобится помощь уравнения прямых линий:

Y = mX+c

Где m — наклон, а c — точка пересечения оси y. Значения «m» и «c» должны быть оптимальными, чтобы SSR был меньше.

SSR = ((mX1+c)-Y1)² + ((mX2+c)-Y2)² + ………. + …….

Где Y1, Y2, ……., Yn — наблюдаемое/фактическое значение и,

(mX1+c), (mX2+c), ………. Являются значением строки или предсказанным значением.

Поскольку нам нужна линия, которая даст наименьшее SSR, этот метод нахождения оптимального значения «m» и «c» называется методом наименьших квадратов.

Это график SSR против вращения линий. SSR снижается, когда мы начинаем вращать линию, и после точки насыщения начинает увеличиваться при дальнейшем вращении. Линия вращения, для которой SSR минимальна, является наиболее подходящей линией. Мы можем использовать вывод для нахождения этой линии. При выводе SSR мы получаем наклон функции в каждой точке, когда в точке наклон равен нулю, модель выбирает эту линию.

R-квадрат

R-квадрат — это показатель согласия для модели линейной регрессии. Он говорит нам о проценте дисперсии зависимой переменной, объясненной независимыми переменными. R-квадрат измеряет силу связи между нашей моделью и зависимой переменной по шкале от 0 до 100%. Это объясняет, в какой степени дисперсия одной переменной объясняет дисперсию второй переменной. Если R-квадрат любой модели с идентификатором 0,5, то половина наблюдаемых изменений может быть объяснена входными данными модели. R-квадрат находится в диапазоне от 0 до 1 или от 0 до 100%. Чем выше R², тем больше вариация будет объясняться независимыми переменными.

R² = отклонение, объясненное моделью / общее отклонение

R² для модели слева намного меньше, чем у модели справа.

Но у него есть свои ограничения:

· R² говорит нам о дисперсии зависимой переменной, объясненной независимыми, но не говорит о том, хороша модель или плоха, а также о том, являются ли данные и прогнозы предвзятыми. Высокое значение R² не означает, что модель хорошая, а низкое значение R² не означает, что модель плохая. Некоторые области исследования по своей природе имеют большее количество необъяснимых вариаций. В этих областях значение R² должно быть ниже. Например, исследование, которое пытается предсказать поведение человека, обычно имеет более низкое значение R².

· Если мы продолжаем добавлять независимые переменные в нашу модель, это, как правило, дает большее значение R², например, прогноз стоимости дома, количество дверей и окон являются ненужной переменной, которая не вносит большого вклада в прогнозирование затрат, но может увеличить значение R². . R Squared не имеет отношения к выражению влияния плохой или наименее значимой независимой переменной на регрессию. Таким образом, даже если модель состоит из менее значимой переменной, например, имени человека для прогнозирования зарплаты, значение R в квадрате будет увеличиваться, что свидетельствует о том, что модель лучше. Множественная линейная регрессия соблазняет нас добавить больше переменных и, в свою очередь, дает более высокое значение R², что приводит к переоснащению модели.

Из-за его ограничений мы используем скорректированный R-квадрат или прогнозируемый R-квадрат.

Расчет R-квадрата

Спроецируйте все точки данных на ось Y и рассчитайте среднее значение. Как и SSR, сумма квадратов расстояния между каждой точкой на оси Y и средним значением Y известна как SS (среднее значение).

Примечание: (Я не пытаюсь объяснить это как в математической формуле, В Википедиии везде дается математический подход. Но это теоретический путь и самый простой способ, который я понял из Stat Quest.Прежде чем следовать математическому подходу, мы должны знать концепцию, стоящую за этим).

SS(среднее) = (Y-данные по оси Y — Y-среднее)²

SS(var) = SS(mean) / n.. где n — количество точек данных.

Сумма квадратов вокруг линии наилучшего соответствия известна как SS (подгонка).

SS(fit) = (данные Y по оси X — точка на линии соответствия)²

SS(соответствует) = (Y-факт — Y-прогноз)²

Var(fit) = SS(fit) / n

R² = (Var(среднее) — Var(подходящее)) / Var(среднее)

R² = (SS(среднее) — SS(соответствие)) / SS(среднее)

R² = 1 — SS (подходит)/SS (среднее)

Математический подход:

Здесь SS (общее) такое же, как SS (среднее), т. е. SST (общая сумма квадратов) представляет собой сумму квадратов разности между фактическим наблюдаемым значением y и средним значением наблюдаемого значения (среднее значение y), спроецированным на ось Y.

Здесь SSR совпадает с SS (соответствие), т. Е. SSR (сумма квадратов остатков) представляет собой сумму квадратов разницы между фактическим наблюдаемым значением y и прогнозируемым значением (y^).

Скорректированный R-квадрат:

Скорректированный R-квадрат регулирует количество независимых переменных в модели. Его значение увеличивается только тогда, когда новый член улучшает модель, подходящую больше, чем ожидалось, только случайно. Его значение уменьшается, когда член не улучшает подгонку модели в достаточной степени. Для создания корректной регрессионной модели требуется минимальное количество точек данных или наблюдений.

Скорректированный R-квадрат использует степени свободы в своем уравнении. В статистике степени свободы (DF) указывают количество независимых значений, которые могут изменяться в анализе без нарушения каких-либо ограничений.

Предположим, у вас есть семь пар обуви, каждую из которых вы носите каждый день без повторения. В понедельник у вас есть 7 различных пар обуви на выбор, во вторник выбор уменьшается до 6, поэтому в воскресенье у вас нет выбора, какую обувь вы наденете, вы застряли с последней оставшейся парой. носить. У нас нет свободы в воскресенье. Следовательно, степень свободы - это то, насколько независимая переменная может свободно изменяться для анализа параметров.

Каждый раз, когда вы добавляете в модель независимую переменную, R-квадрат увеличивается, даже если независимая переменная незначительна. Никогда не отказывается. Принимая во внимание, что скорректированный R-квадрат увеличивается только тогда, когда независимая переменная является значимой и влияет на зависимую переменную. Это наказывает вас за добавление независимой переменной, которая не помогает в прогнозировании зависимой переменной.

для подробного понимания смотрите Криш Найк

P — значение

Предположим, что в координатной плоскости 2-D в пределах осей x и y лежат две точки данных независимо от координат, то есть в любом месте плоскости. Если мы нарисуем линию, соединяющую их, это будет наилучшая линия. Опять же, если мы изменим координаты этих двух точек и снова соединим их, то эта линия также будет наиболее подходящей. Независимо от того, где лежат точки данных, линия, соединяющая их, всегда будет наилучшей, а дисперсия вокруг них будет нулевой, что дает

значение всегда 100%. Но это не означает, что эти две точки данных всегда будут статистически значимыми, то есть всегда будут давать точный прогноз целевой переменной. Чтобы узнать о статистически значимых независимых переменных, которые дают хорошее значение R², мы вычисляем P — значение.

Большой вопрос — что такое P — Value?

Мы до сих пор ничего не знаем о P — Value. P — значение похоже на Танос, и чтобы победить Таноса, мы должны сначала разобраться с Камнями Бесконечности. P — значение имеет свои камни бесконечности, такие как альфа (α), F — оценка, z — оценка, нулевая гипотеза, проверка гипотезы, Т-тест, Z-тест. Давайте сначала разберемся с F — оценка.

Подходящая линия — это дисперсия, объясненная дополнительными параметрами. Расстояние между линией соответствия и фактическими точками данных называется остатками. Эти остатки представляют собой вариации, не объясняемые дополнительными параметрами в подборе.

Для разных случайных наборов точек данных (или выборок) будет разное вычисленное F. Скажем, для тысяч выборок будут тысячи F. Если мы нанесем все F на график гистограммы, это будет выглядеть примерно так.

Если мы нарисуем линию, соединяющую внешние все буквы F, мы получим вот так

Форма линии определяется степенями свободы

Для красной линии размер выборки меньше, чем размер выборки синей линии, синяя линия с большим размером выборки сужается к оси x быстрее, чем у красной линии. Если размер выборки больше по отношению к количеству параметров в подходящей строке, то значение P — будет меньше.

Для дальнейшего ясного понимания значения P нам необходимо сначала понять, что такое Проверка гипотез.

Проверка гипотез —

Что такое Гипотеза? Любое предположение, сделанное нами, является Гипотезой. Например.

1. По воскресеньям Питер всегда играет в баскетбол.

2. Новая вакцина от короны отлично сработает.

3. Сачин всегда набирает 100 очков в Идене.

4. НАСА, возможно, обнаружило новый вид.

5. Я могу есть дюжину яиц за раз. И т.д. и т.п.

Если мы поместим все угаданное выше предложение в тест, он называется проверкой гипотез.

1. Если завтра воскресенье, то Питер будет играть в баскетбол.

2. Если это вакцина, сделанная для короны, то она подействует на пациента с короной.

3. Если матч проходит в Эдеме, то Сачин наберет 100 очков.

4. Если бы на Землю пришел какой-то новый вид, то он был бы обнаружен НАСА.

5. Если бы я принял участие в соревновании по поеданию яиц, то я мог бы съесть дюжину яиц за раз и выиграть соревнование.

6. Если я регулярно поливаю растение, оно вырастет красивым и крепким.

7. Если я выпью хороший кофе утром, то я буду работать весь день, не уставая. И т.д. и т.п.

Вы делаете предположение (гипотезу), подвергаете ее проверке (проверка гипотезы). Согласно Калифорнийскому университету, хорошая гипотеза должна включать в себя утверждения «если» и «тогда», а также должна включать независимую переменную и зависимую переменную и может быть проверена.

Нулевая гипотеза —

Нулевая гипотеза — это сделанное нами предположение. Любой известный факт может быть нулевой гипотезой. Каждое предположение, которое мы сделали выше, является нулевой гипотезой. Это также может быть, например. наша Солнечная система состоит из восьми планет (не считая Плутона), в молоке буйвола больше жира, чем в коровьем, мяч упадет быстрее, чем перо, если его свободно бросить с той же высоты в вакууме.

Вот загвоздка. Мы можем принять нулевую гипотезу или отвергнуть нулевую гипотезу. Мы проводим проверку нулевой гипотезы на основе того же наблюдения или данных, если гипотеза верна, мы принимаем ее, иначе мы ее отвергаем.

Большой вопрос? Как проводится этот тест?

Мы оцениваем два взаимных утверждения по населению (миллионы данных, содержащих независимые и зависимые переменные), используя данные выборка (случайно выбранное небольшое количество данных из большого данные). Для проверки любой гипотезы мы должны выполнить несколько шагов:

1. Сделайте предположение.

Например, скажем, директор одной школы утверждает, что учащиеся в его школе обладают интеллектом выше среднего. Случайная выборка из тридцати баллов IQ студентов имеет средний балл 112. Имеются ли достаточные доказательства в поддержку утверждения директора? Средний IQ населения составляет 100 со стандартным отклонением 15.

Здесь нулевая гипотеза — это общепризнанный факт, что средний IQ равен 100, т.е.

Предположим, что после проверки наша нулевая гипотеза верна, т. е. утверждение директора о том, что средний IQ учащихся выше 100, неверно. Мы выбрали разные наборы из 30 студентов, взяли их IQ, усреднили его и обнаружили, что в большинстве случаев средний IQ не превышает 100. Следовательно, наша нулевая гипотеза верна, а альтернативную гипотезу мы отвергаем. Но допустим, что из-за отсутствия доказательств мы не можем узнать результат или как-то ошибочно (два или три ученика исключительно блестящие с гораздо большим IQ) мы подсчитали, что средний IQ выше 100, но на самом деле правильный результат средний. IQ равен 100, и мы отвергаем нулевую гипотезу, это ошибка первого рода.

Опять же, допустим, что Нулевая Гипотеза верна, средний IQ студентов не превышает 100. Но благодаря наличию этих исключительно блестящих студентов мы получили средний IQ выше 100, поэтому мы не отвергаем Альтернативную Гипотезу. Это ошибка 2 рода.

Это сбивает с толку. Хорошо, давайте возьмем другой пример.

Допустим, человек каким-то образом осужден, но он невиновен, он просто случайно оказался рядом с мертвым телом и был осужден. Здесь нулевая гипотеза: человек невиновен. Альтернативная гипотеза может заключаться в том, что человек виновен, но из-за отсутствия доказательств ему было предъявлено обвинение и он был наказан по закону. Итак, это ошибка первого рода. Но что, если человек действительно виновен. Он утверждал, что невиновен. Альтернативная гипотеза предполагала, что он виновен, но из-за отсутствия улик его освободили под залог и обвинили. Это ошибка второго рода (не отвергающая альтернативную гипотезу).

  1. Выберите альфа (α), α - это уровень значимости, который представляет собой вероятность принятия неправильного решения, когда нулевая гипотеза верна, то есть вероятность совершения ошибки 1-го рода. Как правило, мы выбираем α = 0,05, ничего страшного, если менее чем в 5% случаев нулевая гипотеза оказывается неверной, мы все равно ее рассматриваем. Но если нулевая гипотеза неверна более чем в 5% случаев, мы отвергаем ее и принимаем альтернативную гипотезу. Для важных решений, например, в медицинских случаях или на фондовом рынке, мы не берем α > 0,03, это может быть риском, даже если мы избежим минутной ошибки в этих случаях.
  2. 1. Выполните тест.

Z — проверка

Здесь X (столбик) — это среднее значение выборки, т. е. средний IQ случайно выбранных 30 студентов, который равен 112.

(Mu-0) — это среднее значение популяции, т. е. средний IQ всех учащихся, равный 100.

(сигма) — это стандартное отклонение, т. е. насколько данные отличаются от среднего значения генеральной совокупности?

n — размер выборки, равный 30.

Давайте обсудим нормальное распределение и Z-оценку перед выполнением теста.

Нормальное распределение

Свойства:

· Колоколообразная кривая

· Отсутствие асимметрии

· Симметричный

· При нормальном распределении

Среднее = медиана = мода

Площадь под кривой равна 100% или 1

Среднее значение = 0 и стандартное отклонение, σ = 1

Z — оценка

Z — оценка говорит нам, насколько данные, оценка, выборка отклоняются от среднего значения нормального распределения. С помощью Z-счета мы можем преобразовать любой показатель или выборочное распределение со средним значением и стандартным отклонением, отличным от нормального распределения (т. е. когда данные искажены), в среднее значение и отклонение нормального распределения среднего равно нулю и отклонение равно единице.

Из Z – таблицы баллов площадь α = 0,05 равна 1,645 Z – балла, что меньше значения Z, которое мы получаем. Таким образом, мы отвергаем нулевую гипотезу в этом случае.

Теперь, когда мы получили Z — показатель, мы можем рассчитать P — значение, с помощью Таблицы нормального распределения:

Глядя на таблицу нормального распределения, мы получаем, что значение Z — для значения меньше — 3 равно 0,001. Если значение P - ‹ 0,05, мы отвергаем нулевую гипотезу.

Большая… большая путаница –

Мы часто склонны путать вероятность и P-значение. Но между ними есть большая разница. Возьмем пример.

Подбрасывая монетку, мы можем получить шанс выпадения орла 50%. Если мы подбросим еще одну монету, то шанс выпадения орла снова будет 50%.

Теперь, какова вероятность выпадения двух решек подряд и каково значение P для выпадения двух решек подряд?

При одновременном подбрасывании двух монет

Общий результат = HH, HT, TH, TT = 4

Благоприятный исход = HH = 1

P(HH) = 1/4 = 0,25 и P(TT) = 1/4 = 0,25.

P (один H или один T) = (HT, TH) / (HH, HT, TH, TT) = 2/4 = 0,5

P — значение — это вероятность того, что данные были сгенерированы случайным образом или что-то другое, равное или более редкое.

Следовательно, вероятность выпадения двух орлов подряд равна 0,25, а P — значение выпадения двух орлов подряд равно 0,5.

Все графические сюжеты взяты из Stat Quest. для этой статьи я следил за Stat Quest и Krish Naik.

Если что-то здесь отсутствует или объяснено неправильно, пожалуйста, прокомментируйте и проведите меня через это.