Регрессионная модель – это статистическая модель, которая оценивает взаимосвязь между одной зависимой переменной и одной или несколькими независимыми переменными с помощью линии (или плоскости в случае двух или более независимых переменных).
Множественная линейная регрессия (MLR), также известная как множественная регрессия, представляет собой статистический метод, использующий несколько независимых переменных для прогнозирования результата переменной ответа. Множественная регрессия — это расширение линейной (OLS) регрессии, в котором используется только одна независимая переменная.
Формула и расчет множественной линейной регрессии
у = b0 + b1x1 + b2x2 + b3x3 + … + bnxn + c
где y = зависимая переменная, xi = независимая переменная, b0 = точка пересечения y, bi = коэффициенты наклона для каждой независимой переменной
Давайте попробуем предсказать стартапы, используя множественную линейную регрессию в Python.
Мы будем использовать библиотеку Scikit-learn для импорта необходимых функций, необходимых для этого упражнения. Мы будем использовать Pandas и Numpy для исследования данных.
Вы можете скачать набор данных отсюда: 50_Startups.csv
Наши данные выглядят примерно так:
Ниже приведен код для этого проекта:
Набор данных содержит категориальные данные (состояние), которые предварительно кодируются в числовые данные, чтобы передать их в нашу модель машинного обучения. Затем мы можем обучить его и использовать для прогнозирования вывода
Поздравляем, теперь вы создали простой алгоритм машинного обучения множественной линейной регрессии для прогнозирования прибыли стартапов на основе нескольких факторов.