В мире машинного обучения еще не существует модели, которая была бы на 100% точной, особенно в реальных ситуациях, когда данные могут варьироваться или не обязательно коррелировать друг с другом. Следовательно, возникает вопрос: «Каким образом точность модели машинного обучения достигается или измеряется в первую очередь при прогнозировании заданного результата?» Все дело в алгоритме машинного обучения, который машина использует для оценки или приблизительного своих прогнозов.

Что такое линейная регрессия?

В ваших классах статистики так называемая «линия наилучшего соответствия» - это именно та линия регрессии, о которой здесь идет речь. Часто процесс линейной регрессии включает набор точек, нарисованных либо на диаграмме рассеяния, либо на декартовой плоскости, и линию регрессии, которая аппроксимирует наилучшую линейную связь между точками.

Математически линейная регрессия использует метод наименьших квадратов, как это определено следующим выражением:

Здесь n означает количество точек данных; y, координата y точки; x, координата x той же точки; м, наклон линии наилучшего соответствия или линии регрессии.

При этом мы также знаем, что уравнение прямой имеет вид y = mx + b. В контексте машинного обучения m означает «вес». Этот вес эффективно определяет степень влияния входа (x) на выход (y). Кроме того, b относится к термину «предвзятость». Смещение служит для смещения вычислений для конкретных точек данных и позволяет модели машинного обучения лучше обобщать свои прогнозы для всех наборов точек.

Пример диаграммы рассеяния с линейной регрессией показан ниже:

Однако в реальном мире модели машинного обучения также могут использовать и предсказывать нечисловые данные. Они могут включать, например, дифференциацию кошек от собак. Однако преобразование нечисловых данных в числовые для линейной регрессии не будет обсуждаться в этой статье.

Функция стоимости для линейной регрессии

Функция стоимости определяет, насколько модель машинного обучения «наказана» за неточные прогнозы для невидимых данных. Для линейной регрессии ее функция стоимости (J) является просто выражением среднеквадратичной ошибки (MSE):

Здесь ŷi - предсказание машины; йи, чистая правда; n - количество точек данных или выборок. Как всегда, мы хотели бы минимизировать функцию стоимости, сделав прогноз как можно более близким к истине, поскольку модель повторяется через большее количество эпох или испытаний.

Логистическая регрессия и сигмовидная функция

По сравнению с линейной регрессией логистическая регрессия немного сложнее. Для начала давайте сначала определим функцию активации, которая определяет активацию нейрона в модели глубокого обучения логистической регрессии. Эта функция активации определяется, как показано ниже:

где z = mx + b или более часто обозначается как β0 + β1x, что будет объяснено позже в этой статье.

Эта функция также известна как сигмоидальная функция, которая имеет следующий график:

Как мы видим здесь, диапазон сигмовидной функции составляет только от 0 до 1. Что это означает? Теперь это позволяет нам выражать точки данных как вероятности! Точнее, теперь мы можем отобразить каждую пару (x, y) из набора точек в график сигмовидной функции и использовать его для генерации вероятностей в качестве прогнозов. Для ясности, значения y, которые служат здесь в качестве входных данных, равны 0 или 1. В приведенном ниже примере, взятом с deepai.org, диаграмма рассеяния с соответствующей сигмовидной кривой показывает взаимосвязь между разными размерами опухолей и тем, являются ли они распространились или нет.

Теперь, что можно использовать для расчета вероятности распространения опухоли размера x? Вот здесь и пригодится линейная регрессия! Создав и запустив модель, мы можем подобрать строку, наиболее подходящую для данных, показанных выше. В конце концов, это привело бы к уравнению y = 1,87x - 5,47, которое похоже на форму y = mx + b или y = 0 + 1x. Теперь мы можем использовать сигмовидную функцию выше, чтобы нарисовать фактическую сигмовидную кривую (красная), как показано на рисунке выше. Таким образом, у нас есть это:

В качестве примера рассмотрим опухоль длиной 3,5 см. Здесь x = 3,5, поэтому вероятность распространения опухоли равна

Функция затрат для логистической регрессии

Функция затрат для логистической регрессии может быть получена с помощью так называемой гипотезы линейной регрессии, которая обычно выражается следующим образом:

Здесь относится к гипотезе; θi, рассматриваемая i-я характеристика; xi, вес, присвоенный i-й функции.

Используя это, мы можем в конечном итоге придумать уравнение для функции стоимости (часто обозначаемой как J (θ)) модели с использованием логистической регрессии:

где m - количество отсчетов.

А теперь не удивляйтесь, когда мы проанализируем различные термины этого, казалось бы, сложного выражения. Возвращаясь к сигмовидной кривой выше, помните, что значения y должны быть только 0 или 1? Мы можем использовать это, чтобы упростить нашу функцию стоимости!

Из этого мы видим, что мы можем рассматривать только 1 член в зависимости от значения y (0 или 1). Обратите внимание, что если y = 1, второе выражение будет равно 0, а если y = 0, первое выражение будет тогда равно 0. Таким образом, функция стоимости J (θ) просто 1 / m, умноженная на сумму либо первое, либо второе выражение на основе y.

Эпилог

В этой статье мы обсудили линейную регрессию и логистическую регрессию, а также некоторые различия между ними. В действительности, реальные проблемы машинного обучения часто влекут за собой более сложные функции и соображения, такие как термин «регуляризация», предотвращающий переобучение. Несмотря на это, независимо от того, использует ли модель машинного обучения линейную или логистическую регрессию, конечная цель остается той же: минимизировать функцию затрат для повышения точности прогнозов.

Я ни в коем случае не являюсь экспертом в области машинного обучения. Однако как одна из фундаментальных концепций машинного обучения линейная и логистическая регрессия - это просто некоторые вещи, с которыми, я считаю, должен быть знаком каждый. При этом я надеюсь, что это краткое объяснение поможет познакомить вас с миром машинного обучения. Спасибо за прочтение!