Цель статистики состоит в том, чтобы делать выводы о совокупности на основе информации, содержащейся в выборке. Популяции характеризуются такими параметрами, как среднее значение, медиана или стандартное отклонение. Модель поможет нам понять точную взаимосвязь между различными переменными и то, как они используются для прогнозирования результата.

Рассмотрим один из наиболее часто используемых статистических методов в мире — регрессию. Регрессионный анализ — это моделирование взаимосвязи между переменной отклика и набором независимых переменных. Это один из наиболее широко используемых статистических методов.

Модель регрессии

Модель регрессии предоставляет пользователю функциональную взаимосвязь между целевой переменной и независимыми переменными, что позволяет пользователю определить, какие из переменных-предикторов влияют на отклик. Модель регрессии позволяет пользователю исследовать, что происходит с целевой переменной при указанных изменениях переменных предикторов.

Примером этого может быть поиск взаимосвязи между эффективностью сотрудника в компании как целевой переменной и объяснительными переменными, такими как опыт работы на аналогичных должностях, образование и предыдущее обучение.

Основная идея регрессионного анализа состоит в том, чтобы получить модель функциональной связи между переменной ответа (целью) (иногда называемой зависимой переменной) и одной или несколькими пояснительными (предикторными) переменными (иногда называемые независимыми переменными).

Некоторые характеристики регрессионных моделей:

  • Описание особенностей набора данных обеспечивается моделью.
  • Уравнение, связывающее переменную отклика с независимыми переменными, полученное в результате регрессионного анализа, дает оценки переменной отклика для значений объясняющего фактора, не наблюдаемых в исследовании.

Наиболее простой формой регрессионной модели является простая линейная регрессия. Простая линейная регрессия — это метод, который помогает понять взаимосвязь между двумя переменными:

  • Предиктор/независимая переменная (X)
  • Отклик/зависимая переменная (та, которую мы хотим предсказать) (Y)

Результатом линейной регрессии является линейная функция, которая предсказывает переменную ответа (зависимую) на основе переменной предиктора (независимой).

По сути, это уравнение прямой линии. Постоянный член называется пересечением линейной регрессии и интерпретируется как прогнозируемое значение y, когда x = 0. Коэффициент x – это наклон линии. . Другими словами, прогнозируемое изменение y происходит при изменении x на одну единицу.

Наклон количественно определяет отношение между предиктором и результатом. Отношения могут быть положительными или отрицательными. Если коэффициент наклона модели положительный, он описывает положительную связь, тогда как линия с отрицательным наклоном описывает отрицательную связь.

Простая линейная регрессия – это простой метод подбора линии прогноза между одной зависимой переменной y и одной независимой переменной x. В простой регрессии основное предположение состоит в том, что связь является линейной.

Существует термин, называемый предположением о линейности, который говорит о том, что наклон уравнения не меняется при изменении x.

Линейная регрессия в библиотеке Scikit-Learn

В Python вы можете использовать модель линейной регрессии, импортировав ее из модели scikit-learn.

Чтобы использовать модель линейной регрессии, нам нужно создать объект следующим образом:

Вы можете использовать столбец из фрейма данных в качестве переменной-предиктора (X), а другой столбец — в качестве переменной ответа (Y). Чтобы использовать модель, мы используем метод подгонки.

И тогда можно сделать прогноз:

Вы также можете найти значение перехвата с помощью:

И значение наклона (или градиента) с:

С этими значениями вы можете найти уравнение модели.

Выводы

Это было введение в простую модель линейной регрессии и в то, как она работает. Кроме того, мы можем использовать линейную модель с несколькими предсказаниями, которые могут дать нам более сложное (не совсем) уравнение. Существуют также полиномиальные регрессии, но это будет предметом другой статьи.

Это была тема из записной книжки курса IBM по анализу данных с помощью Python. Вы можете перейти по следующей ссылке, чтобы просмотреть некоторые темы и тетради этого курса (на испанском языке).