Регрессионная модель – это статистическая модель, которая оценивает взаимосвязь между одной зависимой переменной и одной или несколькими независимыми переменными с помощью линии (или плоскости в случае двух или более независимых переменных).

Множественная линейная регрессия (MLR), также известная как множественная регрессия, представляет собой статистический метод, использующий несколько независимых переменных для прогнозирования результата переменной ответа. Множественная регрессия — это расширение линейной (OLS) регрессии, в котором используется только одна независимая переменная.

Формула и расчет множественной линейной регрессии

у = b0 + b1x1 + b2x2 + b3x3 + … + bnxn + c

где y = зависимая переменная, xi = независимая переменная, b0 = точка пересечения y, bi = коэффициенты наклона для каждой независимой переменной

Давайте попробуем предсказать стартапы, используя множественную линейную регрессию в Python.

Мы будем использовать библиотеку Scikit-learn для импорта необходимых функций, необходимых для этого упражнения. Мы будем использовать Pandas и Numpy для исследования данных.

Вы можете скачать набор данных отсюда: 50_Startups.csv

Наши данные выглядят примерно так:

Ниже приведен код для этого проекта:

Набор данных содержит категориальные данные (состояние), которые предварительно кодируются в числовые данные, чтобы передать их в нашу модель машинного обучения. Затем мы можем обучить его и использовать для прогнозирования вывода

Поздравляем, теперь вы создали простой алгоритм машинного обучения множественной линейной регрессии для прогнозирования прибыли стартапов на основе нескольких факторов.