Mighty P машинного обучения

Значение p-value в машинном обучении.

День очень приятный. Чтобы узнать что-то новое в своем путешествии по машинному обучению, вы начинаете изучать множественную линейную регрессию. Но еще до того, как вы начнете, вы сталкиваетесь с загадкой, называемой p-значением. Этот термин заставит вас пройти курс математики в средней школе, и даже по прошествии значительного количества времени вы не поймете его значения. Но это очень важная концепция, связанная с обучением вашей модели.

Несколько дней назад я был в такой же ситуации. Но, посмотрев на разные примеры, я смог до некоторой степени понять смысл. Давайте разберемся в этой загадке на известном примере с подбрасыванием монеты.

Пример подбрасывания монеты

Однажды к вам в дом приходит друг, чтобы показать вам фокус. Он приносит с собой монету. Перед тем, как начать фокус, вы думаете, что монета справедливая (присутствуют и голова, и хвост). Это становится нулевой гипотезой.

Здесь мы пытаемся доказать, что нулевая гипотеза неверна. И наша альтернативная гипотеза состоит в том, что монета нечестная (2 решки или 2 решки). Теперь ваш друг приступает к фокусу.

Первый бросок

Он подбрасывает монету в первый раз, и она падает на голову. Это не удивительный результат, поскольку вероятность того, что это произойдет, если нулевая гипотеза верна, составляет 50% (0,5).

Вторая подбрасывание

Он подбрасывает монету во второй раз, и она снова падает на голову. Все еще существует значительная вероятность (25% или 0,25) того, что это произойдет. До сих пор наша нулевая гипотеза верна, и у нас нет никаких сомнений.

Третий бросок

Теперь в третий раз он приземляется на голову. Ваша уверенность в нулевой гипотезе начинает снижаться, потому что вероятность выпадения трех орлов подряд очень мала (~ 12% или 0,12), если монета справедливая. Вы даете ему сомнение, как он ваш друг

Четвертый бросок

Четвертый бросок может заставить вас усомниться в своем друге. На этот раз монета тоже приземляется на голову. Вы начинаете сомневаться, что монета может быть монетой из волшебного магазина, потому что вероятность этого мала (~ 6% или 0,0625). Следующая жеребьевка решит, откажетесь ли вы от своей нулевой гипотезы или нет.

Пятый бросок

Пятый бросок оказывается орлом, и теперь вы отвергаете нулевую гипотезу о том, что монета справедливая, потому что вероятность этого значительно мала (~ 3% или 0,03125). Вы решаете принять альтернативную гипотезу о несбалансированности монеты. И оказывается, что монету купили в волшебном магазине.

Является ли p-значение вероятностью того, что нулевая гипотеза верна? Нет.

Это вероятность получения результатов, аналогичных ранее рассчитанным, при предположении, что нулевая гипотеза верна. Также возможно, что нулевая гипотеза может быть верной, даже если значение p меньше. Это зависит от данных, которые вы рассматриваете.

Каково значение p-value в машинном обучении?

Давайте применим изложенную выше теорию к набору данных. Рассмотрим набор данных с различными независимыми переменными (характеристиками), такими как количество часов, посещаемость и пол учащегося (0 для мужчин и 1 для женщин). Основываясь на этих трех характеристиках, мы должны спрогнозировать результат, то есть оценки, полученные учеником.

Уравнение множественной линейной регрессии выглядит так:

Нулевая гипотеза говорит об отсутствии значимой связи между двумя переменными в гипотезе.

Здесь наша нулевая гипотеза состоит в том, что нет никакой связи между функциями и выходными данными. Это означает, что изменение значений функций не повлияет на результат. Кроме того, существует наша альтернативная гипотеза (существует некоторая связь между одной или несколькими характеристиками и результатом), которая описывает сценарий, отличный от нашей нулевой гипотезы. Как и в случае с проблемой подбрасывания монеты, нам необходимо проанализировать p-значения для различных функций, чтобы мы могли либо отклонить, либо принять нулевую гипотезу.

P-значение определяет значение коэффициента, присутствующего в уравнении множественной линейной регрессии. Согласно нулевой гипотезе, нет никакой связи между функциями и выходными данными, что означает, что коэффициенты будут равны 0. Значение p будет определять, верно это или нет.

Но перед этим нам нужно установить уровень значимости p-значения. Возьмем обычное значение P = 0,05. Это значение говорит о том, что любая функция с p-значением менее 0,05 докажет, что нулевая гипотеза ошибочна.

Приведенные выше значения означают, что у часов и посещаемости значение p ниже значимого уровня (0,05). Но пол имеет значение p выше значимого уровня (0,05). Это доказывает, что наша нулевая гипотеза неверна и что существует связь между характеристиками (часы и посещаемость) и результатом (общие оценки). Это также предполагает, что пол ученика соответствует нулевой гипотезе (нет никакой связи между полом учеников и оценками, полученными ими (что верно). Это означает, что изменения в часах и посещаемости (Характеристики) вызовет значительное изменение итоговых оценок (вывод).

Как сделать весь этот процесс на Python?

Есть много возможных подходов к выбору функций. Но библиотека SciKit-Learn предоставляет класс с именем LinearRegression. Этот класс автоматически использует наиболее эффективную стратегию выбора функций для ваших данных и соответствующим образом соответствует вашим данным.

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, Y_train)

Приведенный выше код можно использовать для обучения модели множественной линейной регрессии на Python. Здесь X_train и Y_train - это функции и выходы соответственно в обучающем наборе.

После обучения модели ее можно использовать для прогнозирования значений, как показано ниже. Здесь X_test содержит независимые переменные (характеристики) тестового набора. Прогнозы, сделанные моделью для X_test, хранятся в Y_pred.

Y_pred = regressor.predict(X_test)

Обратите внимание, что класс линейной регрессии автоматически выполняет выбор функций, используя наиболее эффективную стратегию. Таким образом, нам не нужно выбирать функции вручную, глядя на их p-значения.

Я надеюсь, что это объяснение p-value поможет вам в вашем путешествии по машинному обучению.

Mighty P машинного обучения

Пример подбрасывания монеты

Каково значение p-value в машинном обучении?

Как сделать весь этот процесс на Python?

Вопросы по теме