Здравствуйте, энтузиасты машинного обучения! Эта статья посвящена простому и очень эффективному алгоритму, известному как линейная регрессия.

В следующих разделах будут обсуждаться следующие темы:

(1) Что такое линейная регрессия?

(2) Как работает линейная регрессия?

(3) Приложения линейной регрессии

(4. Вывод

Что такое линейная регрессия?

Как новичок, который только что вошел в мир машинного обучения, он / она встретил бы термин, известный как «линейная регрессия», а также прочитал бы, что это простой алгоритм для начала. Да, но это не только простой алгоритм для понимания и построения, но и мощный и надежный алгоритм, который предпочтительнее для решения некоторых простых бизнес-задач.

Итак, переходя к тому, что такое линейная регрессия, это линейная модель, в которой предполагается линейная связь между входной функцией, например X, и выходной переменной, например, y. Когда присутствует один входной объект, он известен как «Простая линейная регрессия», а когда есть несколько входных объектов, он известен как «Множественная линейная регрессия».

Линейная регрессия изображается следующим образом: y = b0 + b1 * X, где X и y - входной объект (зависимая переменная). и функция вывода (независимая переменная) соответственно. b0 представляет собой точку пересечения линии регрессии, а b1 представляет собой наклон линии регрессии.

Регрессия может показать три типа отношений:

(1) Положительная взаимосвязь. Проще говоря, когда одно из значений увеличивается (либо X, либо y), другое значение также соответственно увеличивается. Рисунок 1 представляет собой положительную взаимосвязь между двумя переменными.

(2) Отрицательная связь: в этом случае, когда одна из переменных увеличивается, значение другой переменной уменьшается, таким образом, имеет наклон вниз.

(3) Нет связи: в этом случае нет связи между двумя переменными, поэтому линия регрессии будет плоской.

Линейная регрессия относится к контролируемому обучению, где независимая переменная известна заранее, т. Е. Значения y известны, когда модель обучается набору данных, и способна предсказывать будущее значение, когда в модель вводится новый набор входных данных.

Как работает линейная регрессия?

В предыдущем разделе мы встретили формулу линейной регрессии, которая была y = b0 + b1 * X + c. С точки зрения статистики, b0 и b1 представляют собой точку пересечения и наклон линии регрессии соответственно. Для машинного обучения давайте рассмотрим b0 и b1 как W0 и W1 соответственно. Теперь уравнение можно представить как y = W0 + W1 * X. В этом новом уравнении W0 и W1 известны как веса. Веса - это небольшие произвольные числа, присваиваемые для присвоения определенной важности функции или переменной. Всякий раз, когда модель многократно учится в наборе данных, веса корректируются соответствующим образом, а частота ошибок уменьшается (этот шаг известен как градиентный спуск), таким образом, обнаруживается линия регрессии, которая лучше всего подходит над точками данных, и модель сможет предсказывать точные значения для любых подходящих входных данных в будущем.

Предположив, что мы построили модель, пора проверить ее достоверность. Иногда модель может переобучаться (когда линия регрессии «слишком хорошо» совпадает с точками данных) или линия регрессии может отклоняться, что в конечном итоге приводит к плохой работе. Хорошая модель гарантирует, что на заданной плоскости расстояние между линией регрессии и точками данных не будет ни меньше, ни больше. Следовательно, для принятия корректирующих мер существует определенный статистический анализ и меры, которые помогают нам найти оптимальную линию при уменьшении ошибки.

(i) Среднеквадратичная ошибка (RMSE): определяется как стандартное отклонение остатков (ошибочно предсказанное). Проще говоря, он сравнивает прогнозируемое значение и фактическое значение из набора данных. Если значение RMSE мало, то прогнозируемое значение ближе к фактическому значению, тогда мы можем предположить, что модель работает хорошо.

В приведенной выше формуле P - прогнозируемое значение, O - наблюдаемое или фактическое значение, а n - количество наблюдений.

(ii) Сумма квадратов ошибок (SSE): она определяется как сумма квадратов разностей между каждым наблюдением (в данном случае одной точкой данных в наборе данных) и средним значением этой группы ( столбец в этом наборе данных). Проще говоря, SSE позволяет нам понять, насколько далеко точки данных от прогнозируемых значений.

Общая сумма квадратов (SST) измеряет, насколько далеко точка данных находится от среднего.

(iii) R-квадрат и скорректированный R-квадрат: разница между SSE и SST и деление этой разницы на SST дает нам R-квадрат, то есть (R-квадрат = SSE-SST / SST). Это указывает на качество посадки модели. Если в регрессионной модели есть улучшения, тогда значение R-Squared увеличивается пропорционально. Конечно, это может быть не во всех случаях. Хотя R-Squared используется для проверки достоверности модели, он имеет недостаток. Значение R-Squared иногда увеличивается всякий раз, когда к модели добавляется предиктор (независимая переменная). Этот рост значения R-Squared неестественен, поэтому с помощью этого значения нельзя определить качество модели.

Таким образом, чтобы избежать этой затруднительной ситуации, было введено скорректированное значение R-Squared. Скорректированный R-Squared увеличивает свое значение только тогда, когда значение предиктора положительно влияет на модель, чем то, что было бы получено либо случайно, либо по вероятности, и, наоборот, уменьшает свое значение, когда предиктор отрицательно влияет на модель, чем то, что было бы получено случайно, таким образом можно избежать проблем, возникающих при применении R-Squared.

Приложения линейной регрессии

Теперь, когда у нас есть базовое представление о том, как работает линейная регрессия, давайте посмотрим на некоторые приложения, в которых используется этот алгоритм.

(1) Прогноз продаж. Предположим, компания «XYZ» продает определенный продукт, и менеджер хотел бы знать, сколько продуктов будет продано в следующем году. Для решения этой проблемы можно использовать линейную регрессию. Основываясь на предыдущей истории о том, сколько единиц было продано, можно предсказать, как будет выглядеть будущий бизнес. Основываясь на прогнозе, можно предпринять подходящие действия для эффективной продажи продукта.

(2) Экономический рост: экономисты могут использовать этот алгоритм для грубой оценки экономического роста страны в предстоящем году на основе предыдущих данных.

(3) Спорт. Одним из вариантов использования этого алгоритма является прогнозирование прогнозируемого результата команды в матче по крикету на основе их текущей скорости бега, а также 3–4 других приблизительных результатов. ставки. Спортивные аналитики также могут использовать этот алгоритм для прогнозирования количества голов, которые футболист может забить в предстоящем матче.

(4) Недвижимость: риэлторы могут использовать этот алгоритм для прогнозирования количества домов, которые они могут продать, а также цены на них в ближайшие месяцы.

Заключение

В этой статье мы прочитали о том, что такое линейная регрессия, о ее работе и, наконец, о некоторых реализациях в различных секторах. Это хороший алгоритм, с которого можно начать и запачкать руки, применив его к набору данных.

Надеюсь, вам понравилось чтение !!