Эти пять препятствий могут возникнуть при обучении модели линейной регрессии на вашем наборе данных.

Линейная регрессия - один из самых тривиальных машинных алгоритмов. Интерпретируемость и простые в обучении черты делают этот алгоритм первым шагом в машинном обучении. Будучи немного менее сложной, линейная регрессия действует как одна из фундаментальных концепций в понимании более высоких и сложных алгоритмов.

Чтобы узнать, что такое линейная регрессия? Как мы его тренируем? Как получить лучшую линию? Как мы это интерпретируем? А о том, как мы оцениваем точность подгонки, вы можете прочитать в следующей статье.



Магия исчисления: линейная регрессия Ааюша Оствала
Человеческое поведение исключительно богато знаниями и технологиями. Мы пытаемся понять и создать… todatascience.com »...



После понимания основной интуиции линейной регрессии некоторые концепции делают ее более увлекательной и увлекательной. Это также обеспечивает глубокое понимание недостатков алгоритма, их влияния и способов устранения. И мы рассмотрим эти концепции в статье.

Все мы знаем, что линейная регрессия предполагает несколько предположений. И эти предположения упрощают структуру этого алгоритма. Однако это причина того, что в нем много недостатков, и почему нам необходимо изучить и понять эти недостатки.

В этой статье обсуждаются проблемы, которые могут возникнуть при обучении линейной модели, и некоторые методы их решения.

В этой статье рассматриваются пять проблем:

  1. Нелинейность отношений ответ-предиктор
  2. Соотношение терминов ошибок
  3. Непостоянная дисперсия условия ошибки [Гетероскедастичность]
  4. Коллинеарность
  5. Выбросы и точки высокого кредитного плеча

Нелинейность отношений ответ-предиктор

Источник:

Причина этой проблемы - одно из допущений, связанных с линейной регрессией. Это предположение о линейности, которое гласит, что связь между предсказателем и ответом является линейной.

Если фактическая связь между ответом и предсказателем не является линейной, то все выводы, которые мы делаем, становятся недействительными. Также может значительно упасть точность модели.

Итак, как мы можем решить эту проблему?

Средство:

Решением упомянутой выше проблемы является построение графиков остатков.

Графики остатка - это график между остатком, разницей между фактическим и прогнозируемым значениями и предсказателем.

После того, как мы построили остаточный график, мы будем искать образец. Если видны какие-то закономерности, значит, между ответом и предсказателем существует нелинейная связь. И, если сюжет показывает случайность, значит, мы на правильном пути!

Проанализировав тип шаблона, мы можем использовать нелинейные преобразования, такие как квадратный корень, кубический корень или функцию журнала. Это в некоторой степени устраняет нелинейность, и наша линейная модель работает хорошо.

Пример:

Давайте попробуем подогнать прямую к квадратичной функции. Мы сгенерируем несколько случайных точек с помощью NumPy и возьмем их квадраты в качестве ответа.

import numpy as np
x = np.random.rand(100)
y = x*x
sns.scatterplot(x,y)

Давайте посмотрим на диаграмму разброса между x и y (рис.1).

Теперь давайте попробуем подогнать линейную модель к этим данным и посмотреть график между остатком и предиктором.

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x.reshape(-1,1),y.reshape(-1,1))
predictions = model.predict(x.reshape(-1,1))
residual = y.reshape(-1,1) - predictions

Мы видим квадратичный тренд на графиках остатков. Эта тенденция помогает нам выявить нелинейность данных. Кроме того, мы можем применить преобразование квадратного корня, чтобы сделать данные более подходящими для линейной модели.

Если данные линейны, вы получите случайные точки. Характер остатка будет случайным. В этом случае мы можем двигаться дальше с моделью.

Соотношение терминов ошибок

Источник:

Основное предположение линейной модели - некоррелированность членов ошибки. Термины «некоррелированные» указывают на то, что знак ошибки для одного наблюдения не зависит от других.

Корреляция между ошибочными членами может происходить из-за нескольких факторов. Например, если мы наблюдаем за весом и ростом людей. Ошибка корреляции может возникать из-за диеты, которую они потребляют, выполняемых упражнений, факторов окружающей среды или из-за того, что они являются членами одной семьи.

Что происходит с моделью при корреляции ошибок? Если члены ошибки коррелированы, то стандартная ошибка в коэффициентах модели становится недооцененной. В результате доверительные интервалы и интервалы прогноза будут уже, чем должны быть.

Для получения дополнительных сведений см. Пример ниже.

Средства защиты:

Решение такое же, как описано в приведенной выше задаче Графики остатков. Если некоторые тенденции видны на графиках остатков, эти тенденции могут быть выражены в виде некоторых функций. Значит, они взаимосвязаны!

Пример:

Чтобы понять влияние корреляции на доверительный интервал, мы должны отметить два тривиальных момента.

  1. Когда мы оцениваем параметры модели, возникает некоторая ошибка (стандартная ошибка: SE). Эта ошибка возникает из-за оценки характеристик совокупности по выборке. Эта ошибка обратно пропорциональна квадратному корню из числа наблюдений.
  2. Доверительный интервал для параметров модели с доверительной вероятностью 95% изменяется на две стандартные ошибки. (См. Рис. 3)

Теперь предположим, что у нас есть n точек данных. Рассчитываем стандартную ошибку (SE) и доверительный интервал. Теперь мы удвоили наши данные. Следовательно, тогда у нас были бы пары наблюдений и ошибок.

Если мы теперь пересчитаем SE, мы вычислим его в соответствии с наблюдениями 2n. В результате стандартная ошибка будет меньше на коэффициент корня √2 (SE обратно пропорционален количеству наблюдений). И мы получим более узкий доверительный интервал.

Непостоянная дисперсия члена ошибки [H этероскедастичность ]

Источник:

Источником этой проблемы также является предположение. Предполагается, что термин ошибки имеет постоянную дисперсию, также называемую последовательностью.

Обычно это не так. Часто мы можем определить непостоянную дисперсию ошибок или гетероскедастичность по форме воронки на графиках остатков. На рисунке 2 воронка показывает, что члены ошибки имеют непостоянную дисперсию.

Средства защиты:

Одно из возможных решений - преобразовать ответ с помощью вогнутой функции, такой как логарифм и квадратный корень. Такое преобразование приводит к уменьшению переменной отклика, следовательно, к снижению гетероскедастичности.

Пример:

Попробуем применить преобразование журнала к точкам, сгенерированным в задаче 1.

Мы можем наблюдать линейный тренд после трансформации. Следовательно, мы можем устранить нелинейность, применяя вогнутые функции.

Коллинеарность

Коллинеарность относится к ситуации, в которой две или более переменных-предикторов коррелированы друг с другом. Например, мы можем найти некоторую связь между ростом и весом, площадью дома и количеством комнат, опытом и доходом и многим другим.

Источник:

В линейной регрессии мы предполагаем, что все предикторы независимы. Но часто бывает наоборот. Предикторы коррелированы друг с другом. Следовательно, очень важно взглянуть на эту проблему и найти возможное решение.

Если пренебречь предположением о независимости, возникают следующие проблемы:

  1. Мы не можем сделать вывод об индивидуальном влиянии предикторов на реакцию. Поскольку они взаимосвязаны, изменение одной переменной пытается передать изменение другой. Следовательно, точность параметров модели существенно падает.
  2. Когда точность параметров модели падает, все наши выводы становятся недействительными. Мы не можем сказать фактическую связь между ответом и предсказателем, и, следовательно, точность модели также снижается.

Средства защиты:

Есть два возможных решения проблемы.

  1. Отбросить переменную: мы можем исключить проблемную переменную из регрессии. Интуиция заключается в том, что коллинеарность подразумевает, что информация, предоставляемая переменной в присутствии других переменных, является избыточной. Следовательно, мы можем отбросить переменную без особых компромиссов.
  2. Объединение переменных: мы можем объединить обе переменные, чтобы сформировать новую переменную. Эти методы относятся к разработке функций. Например, объедините вес и рост, чтобы получить ИМТ (индекс массы тела).

Выбросы и точки высокого кредитного плеча

На линейную регрессию сильно влияет наличие выбросов и точек плеча. Они могут возникать по разным причинам. И их присутствие сильно влияет на производительность модели. Это также одно из ограничений линейной регрессии.

Выброс: выброс - это необычное наблюдение реакции y для некоторого заданного предиктора x.

Точки высокого кредитного плеча. В отличие от выброса, высокий уровень кредитного плеча определяется как необычное наблюдение предиктора x.

Существует несколько методов выявления выбросов. Сюда входят межквартильный размах, диаграммы разброса, графики остатков, графики квартилей и квартилей, ящичные диаграммы и т. Д.

Поскольку это ограничение линейной регрессии, очень важно предпринять необходимые шаги. Один из способов - отбросить выброс. Однако это может привести к некоторой потере информации. Мы также можем использовать конструкцию функций для работы с выбросами.

Резюме

В этой статье мы рассмотрели пять проблем при работе с линейной регрессией. Мы увидели источники, последствия и решения каждой из проблем.

Хотя линейная регрессия - это самый базовый алгоритм машинного обучения, у него есть огромные возможности для изучения нового. На мой взгляд, эти проблемы представляют собой другую точку зрения на линейную регрессию.

Я надеюсь, что понимание этих проблем даст вам новые идеи при решении любой проблемы.

Вы также можете проверить полный список воспроизведения линейной регрессии.

Удачного обучения!