Девяносто процентов данных в современном мире было создано только за последние два года.

Каждый мог слышать приведенную выше статистику даже не раз. За последние несколько лет люди начали производить огромные объемы данных. С моей точки зрения, 21 век в будущем будет называться «веком взрыва данных». Итак, что люди делают со всеми этими данными? Как они это понимают? Какая польза от такого большого количества данных?

Математики и информатики обнаружили очень интересные способы извлечения выгоды из данных, и они все еще работают над новыми методологиями. В этой статье я сосредоточусь на линейной регрессии, которая является одним из самых мощных и полезных подходов к использованию данных. Основная цель линейной регрессии - подогнать линию или гиперплоскость (в зависимости от размера данных) к разрозненным точкам данных.

Как известно из расчетов, линия имеет уравнение: y = b + xw. В общем, нам нужно найти лучшие параметры (b и w для этого случая), которые соответствуют точкам данных с минимальной ошибкой, о которой я упоминал в моей предыдущей статье Как ввести в машинное обучение?. Чем меньше ошибка, тем лучше линия! Здесь снова появляется концепция функции ошибок. Нам нужно определить функцию ошибок для этой проблемы. Самый распространенный подход - это суммирование квадрата разностей между фактическим значением каждой точки данных и соответствующим значением в строке.

В этой формуле b + xw - это значение, соответствующее определенной точке данных в строке, а y - фактическое значение данных. Вначале b и w принимают начальные значения в соответствии с предпочтениями. Они могут быть нулевыми или принимать случайные значения. Чтобы минимизировать эту функцию ошибок g (b, w), мы можем воспользоваться методом градиентного спуска, который использует первую производную функций. Приведенные ниже формулы являются обобщенными формами в соответствии с размером данных. Поэтому они используют матричную запись:

Когда мы устанавливаем градиент на ноль, мы обнаруживаем, что:

Решая приведенное выше уравнение, мы находим параметры для w, которые минимизируют ошибку, т.е. мы находим параметры нашей наиболее подходящей линии.

Я знаю, что формулы кажутся трудными для понимания, но если вы попытаетесь понять их, зная, какая переменная что обозначает, тогда вам будет очень легко понять суть.

После нахождения правильных параметров остается только позволить нашей линии делать прогнозы для невидимых точек данных.

Например, если мы имеем дело с массой людей по отношению к их возрасту, сначала мы собираем данные, определяем функцию ошибок. Узнайте параметры нашей линии. Теперь мы можем протестировать нашу модель на человеке, данные которого ранее не собирались. Просто введите его возраст в функцию, и пусть она вернет вам свой прогноз! Посмотрите, насколько верен его прогноз.

Линейная регрессия - очень полезный и простой инструмент. От бизнеса до статистики, от медицины до образования - он имеет широкий спектр областей применения.

Воспользовавшись этой ссылкой, вы можете поиграть с симулятором прямой линейной регрессии.

Для получения дополнительной информации вы можете увидеть:

  1. Уточнение машинного обучения: основы, алгоритмы и приложения Джереми Ватта, Резы Борхани и Аггелоса К. Кацаггелоса

2. https://developers.google.com/machine-learning/crash-course/descending-into-ml/linear-regression

Спасибо за уделенное время!