Начнем с проницательной цитаты известного британского экономиста доктора Рональда Коуза:

«Пытайте данные, и они признаются в чем угодно».

ВВЕДЕНИЕ

Давайте двигаться шаг за шагом и подниматься по лестнице медленно и неуклонно.

Когда мы сталкиваемся со словом «линейная регрессия», наш разум начинает вращаться вокруг статистики и машинного обучения. Итак, давайте сначала разберем несколько причудливых слов.

Что такое машинное обучение и статистика? И есть ли между ними разница?

  • Машинное обучение — это алгоритм, который может учиться на данных, не полагаясь на программирование на основе правил.
  • В то время как статистическое моделирование — это формализация отношений между переменными в данных в виде математических уравнений.

– (определения Ааташа Шаха)

Но одних этих определений недостаточно, чтобы объяснить разницу или сходство между двумя терминами.

Что я знаю об этих терминах, говоря простым языком, так это следующее:

Машинное обучение — это процесс, посредством которого мы запускаем машину с помощью различных алгоритмов, подкрепленных математическими концепциями, чтобы она могла учиться в своей среде, улучшаться (в некоторых случаях), а затем использоваться в дальнейшем для различных целей, таких как прогнозирование, расширенное обучение, искусственное обучение. интеллект и др.

В то время как статистика представляет собой комбинацию различных методов, используемых в прикладной математике для сбора данных для получения ценных результатов, таких как описание, анализ и вывод выводов из количественных данных.

Статистика и машинное обучение трудно объяснить в контексте друг друга. Их нельзя отделить друг от друга, несмотря на то, что они совершенно разные.

Чтобы было легче понять, я бы сказал, что -

СТАТИСТИКА — вывод характеристик населения из выборки.

МАШИННОЕ ОБУЧЕНИЕ — обобщаемые шаблоны прогнозирования.

В целях формализации знаний или проверки теории о том, как действует система, inference разрабатывает математическую модель процесса генерации данных. Предсказание пытается предсказать будущие события или поведение, например, больна ли крыса с определенным паттерном экспрессии генов. Не зная лежащих в основе механизмов, предсказание позволяет определить оптимальные варианты действий.

Вывод и предсказание могут быть полезны в обычном исследовательском начинании, и, следовательно, статистика и машинное обучение идут рука об руку. Например, мы хотим определить статус болезни субъекта, определить наилучшие варианты лечения и сделать вывод, какие биологические процессы связаны с нарушением регуляции гена при заболевании.

Я думаю, что теперь это в значительной степени ясно, и углубляться в это сравнение — пустая трата времени. Двигаясь дальше, давайте вернемся к регрессии и попытаемся понять, что это такое на самом деле и является ли оно частью машинного обучения или статистики.

РЕГРЕССИЯ

Регрессия – это метод исследования связи между независимыми переменными или признаками и зависимой переменной или результатом. Он используется как метод прогнозного моделирования в машинном обучении, в котором алгоритм используется для прогнозирования непрерывных результатов.

Основываясь на этом общем определении, я хотел бы сообщить вам, что регрессия — это широко используемый статистический инструмент в прикладной математике для выполнения некоторых операций, используемых в статистике. Но когда мы говорим, что собираемся использовать другие формы регрессии, такие как Lasso, Ridge и т. д., мы входим в область инструментов машинного обучения.

Григорий Пятецкий-Шапиро, президент KDnuggets, говорит:

Некоторые исследователи машинного обучения могут счесть «традиционную» линейную регрессию слишком простой, чтобы считать ее «машинным обучением», и просто «статистикой», но я думаю, что граница между машинным обучением и статистикой является искусственной. Алгоритм дерева решений C4.5 также не слишком сложен, но, вероятно, считается машинным обучением.

На основе линейной регрессии возникают более продвинутые алгоритмы, такие как гребневая регрессия, регрессия по наименьшему углу и LASSO, которые, вероятно, используются многими исследователями машинного обучения, и для их правильного понимания вам необходимо понимать основы линейной регрессии.

Поэтому линейная регрессия должна быть частью набора инструментов любого исследователя машинного обучения.

Двигаясь вперед, давайте, наконец, подойдем к нашей теме — ЛИНЕЙНОЙ РЕГРЕССИИ.

ПРОСТАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Простая линейная регрессия, как следует из названия, используется для простого вычисления или прогнозирования значений количественной зависимой переменной Y с помощью одной независимой индикаторной переменной X. Это может быть математически представлено как:

Уравнение говорит, что «мы регрессируем Y на X (или Y на X)».

Символы 0 и 1 представляют собой коэффициенты модели или параметры модели. Это константы, которые говорят нам о «наклоне» и «пересечении» линейного уравнения соответственно.

Используя обучающие данные, мы прогнозируем эти коэффициенты, сопоставляя каждое значение «y» с каждым значением «x» и создавая линию, которая лучше всего представляет предоставленные нам данные. Благодаря этому мы получаем наши коэффициенты моделибета(0) и бета(1), с помощью которых мы можем в дальнейшем прогнозировать y. strong> с использованием того же предыдущего уравнения, что и:

«y» представляет предсказание Y для конкретного случая, когда X = «x».

Символ шляпы «^» используется здесь для обозначения оценочного значения неизвестного параметра или коэффициента или для обозначения прогнозируемого значения отклика.

Оценка коэффициентов

Теперь основная цель оценки параметров модели: точки пересечения 0 и наклона 1 — получить линейную модель, максимально приближенную к изображению заданных «n» точек данных.

Эту "близость" можно измерить разными способами, и одним из них является "метод наименьших квадратов".

Пусть прогноз для Y на основе i-го значения X будет следующим:

Затем i-й остаток — разница между i-м наблюдаемым значением отклика (фактическая точка данных) и i-м значением отклика, предсказанным нашей линейной моделью, определяется по формуле:

(в основном это ошибка предсказания зависимой переменной по сравнению с фактическим значением зависимой переменной, уже предоставленным нам в виде обучающих данных)

Проблема с этим уравнением заключается в том, что невязка «е» отрицательна, когда ŷᵢ больше, чем yᵢ. В этом случае мы хотим работать только с положительными значениями. Чтобы решить эту проблему, мы можем просто возвести нашу разницу в квадрат.

Это приводит нас к определению остаточной суммы квадратов (RSS) следующим образом:

Метод наименьших квадратов выбирает те значения бета(0) и бета(1), которые минимизируют RSS.

Теперь исчисление говорит, что функция имеет минимум там, где производная равна 0. Поскольку нам нужно скорректировать как бета(0), так и бета(1), мы берем частичное производная RSS по отношению к beta(1) и отдельно по отношению к beta(0), и установите для обоих значение «0».

При решении математическим методом получаем:

Не пугайтесь формул, я здесь, чтобы разбить эти уравнения на молекулярный уровень для вашего понимания.

В первой формуле для перехвата, бета(1),

Числитель → Ковариация (x, y)

Знаменатель → Дисперсия (x)

Это отношение ковариации X и Y к дисперсии X важно для определения силы и направления линейной зависимости между двумя переменными. Это мера линейной зависимости между X и Y, нормализованная изменчивостью X. Это позволяет сравнивать линейную зависимость между различными парами переменных с разными единицами измерения или масштабами, поскольку ковариация нормируется дисперсией.

Были случаи, когда я сталкивался с тем, что люди путались между наклоном LR бета(1) и коэффициентом корреляции. Давайте обсудим это подробно:

Коэффициент корреляции Пирсона и наклон линейной регрессии являются мерами линейной связи между двумя переменными, но служат разным целям.

Вот разница между их формулами -

Коэффициент корреляции Пирсона определяется выражением

Простыми словами, это:

r = cov(X, Y) / (std(X) * std(Y))

Кроме того, выполнив простую алгебру, вы можете показать, что прогнозируемый наклон линии линейной регрессии может быть записан как

бета1 = r* (стандартное значение (Y) / стандартное значение (X))

Поэтому этот наклон и коэффициент корреляции совпадают только тогда, когда SD(Y) = SD(X). То есть они совпадают только тогда, когда две переменные в некотором смысле находятся в одном масштабе. Наиболее распространенным способом достижения этого является стандартизация.

Корреляция дает вам ограниченное измерение, которое можно интерпретировать независимо от масштаба двух переменных. Чем ближе расчетная корреляция к тем ближе они к идеальной линейной зависимости. Наклон регрессии сам по себе не дает вам этой информации.

Наклон регрессии дает полезную величину, интерпретируемую как оценочное изменение ожидаемого значения Yi для заданного значения Xi. В частности, бета(1), т.е. наклон показывает изменение ожидаемого значения Yi, соответствующее увеличению Xi на 1 единицу. Эту информацию нельзя вывести только из коэффициента корреляции.

…………………………………………………………………………………………………

Итак, мы обсудили простую линейную регрессию в этой статье, и теперь я хотел бы закончить тему несколькими заключительными указателями -

  • Здесь мы изучили только простой LR, и его также можно расширить до множественной линейной регрессии. Уравнение прогноза становится таким, как показано:

  • Здесь я объяснил только модель LR, а не анализ линейной регрессии. Если мы войдем в эту область, нам придется учитывать термин ошибки, как показано ниже:

В этом случае мы сталкиваемся с такими понятиями, как линия регрессии населения, линия наименьших квадратов, стандартная ошибка невязки (RSE), коэффициент детерминации (R2) и т. д.

  • Линейную регрессию можно использовать и с КАЧЕСТВЕННЫМИ ПРЕДИКТОРАМИ. Если предиктор имеет два уровня, мы просто создаем индикатор или фиктивную переменную dummy, которая принимает два возможных числовых значения. Точно так же метод изменяется соответствующим образом для качественных предикторов более высокого уровня.
  • Стандартная модель линейной регрессии дает интерпретируемые результаты и довольно хорошо работает во многих реальных задачах. Однако он делает несколько очень ограничительных допущений, которые на практике часто нарушаются. Два наиболее важных предположения утверждают, что связь между предикторами и откликом является аддитивной и линейной. Аддитивный линейный означает, что связь между предиктором Xj и ответом Y не зависит от значений других предикторов. Предположение о линейности утверждает, что изменение отклика Y, связанное с изменением Xj на одну единицу, является постоянным, независимо от значения Xj.
  • Когда мы подгоняем модель линейной регрессии к определенному набору данных, может возникнуть много проблем. Среди них наиболее распространены следующие:
  1. Нелинейность отношений ответ-предиктор.
  2. Другие аспекты регрессионной модели 93
  3. Корреляция терминов ошибок.
  4. Непостоянная дисперсия членов ошибки.
  5. Выбросы.
  6. Точки высокого кредитного плеча.
  7. Коллинеарность.

Все вышеупомянутые темы требуют подробного объяснения в совершенно новой статье, и, следовательно, я не буду растягивать это дальше и ограничивать только базовым Simple LR, но я обязательно обсужу их в статье в будущем после того, как расскажу о некоторых из них. другие элементарные модели ML для регрессии и классификации.

А пока продолжайте учиться и продолжать суетиться…

(предложения по редактированию приветствуются)

ДЕВАНШ РАЙ