Как подойти к проверке гипотез

Проверка гипотезы - неотъемлемый этап машинного обучения перед построением моделей, повышающих ценность бизнеса.

И этот шаг кажется действительно важным для каждого специалиста по данным или инженера по машинному обучению. Хотя мы сосредотачиваемся только на построении моделей и повышении их точности, мы часто забываем, что построение гипотезы без фактического просмотра данных является решающим шагом.

И с этой мыслью мы склонны строить предвзятую модель (один из примеров), которая впоследствии не работает хорошо, и мы в конечном итоге думаем, что пошло не так!

Итак, чтобы этого избежать, мы генерируем гипотезы. Я прочитал много статей и блогов в Интернете, но не нашел простого объяснения проверки гипотез. Так что сделаю это простым и понятным. :)

Этот пост посвящен объяснению проверки гипотез, необходимости проверки гипотез и ее упрощению на примере.

Что такое проверка гипотез?

Проверка гипотезы - это статистический метод, который оценивает два взаимоисключающих утверждения (гипотезы) о совокупности и определяет, какое утверждение удовлетворяет выборочным данным.

Поняли? Очевидно, немного. Итак, мы пытаемся разобраться с основным.

Гипотеза - это утверждение или утверждение о параметре утверждения.

Например, «Среднее по совокупности 120».

  • Каждая гипотеза подразумевает свое Противоречие или Альтернативу.
  • Верно или неверно?
  • Может быть отклонено на основании свидетельских показаний, доказательств или выборки.

Типы гипотез

  1. Нулевая гипотеза: это первый шаг в проверке гипотез.
  • Он обозначается H0 (произносится как «H not») и обычно является гипотезой «без разницы».
  • Он выполняется при возможном отклонении при истинном предположении и всегда относится к заданному значению параметра совокупности.

2. Альтернативная гипотеза: она дополняет нулевую гипотезу.

  • Он обозначается H1 (произносится как «H one»).
  • Он используется, чтобы решить, использовать ли односторонний или двусторонний тест.

Указывая на предыдущий пример,

«Среднее значение для генеральной совокупности 120»; следующую гипотезу можно определить как

H0: u = 120 (нулевая гипотеза)

H1: u ≠ 120 (Альтернативная гипотеза) (Двусторонний тест)

H1: u ›120 (Правосторонний тест) (Односторонний тест) (Альтернативная гипотеза)

H1: u ‹120 (Левосторонний тест) (Односторонний тест) (Альтернативная гипотеза)

Зачем рождаются гипотезы?

Создание гипотезы - важный шаг, который мы все должны сделать.

Также:

  • Прежде чем исследовать данные, нам нужно понять взаимосвязь между переменными в наборе данных, поэтому мы должны сначала сформировать гипотезу.
  • Кажется нелогичным? Нет. Для решения проблемы мы должны сначала подумать о бизнес-проблеме, получить знания о предметной области, а также получить непосредственный опыт решения проблемы.
  • Как это помогает? Эта практика обычно помогает нам создавать более совершенные функции позже, во время разработки функций, которые свободны от каких-либо предубеждений, связанных с данными, доступными в наборе данных.
  • Типа мозгового штурма перед просмотром данных? Да, вы меня поняли. По сути, это включает мозговой штурм и выдвижение как можно большего количества идей о том, что может повлиять на целевую переменную. Доведите свою идею, генерирующую часть мозга, до максимальной эффективности: p

Таким образом, создание гипотез следует всегда выполнять до просмотра данных, иначе вы закончите с предвзятой гипотезой и меньшей точностью.

Всегда придумывайте множество собственных гипотез, чем больше, тем лучше. Это поможет нам разобраться в проблеме и выявить лучшие особенности с высокой корреляцией.

Проведение проверки гипотез

Чтобы выполнить проверку гипотезы, нам необходимо четко понимать некоторые основные термины, такие как ошибка типа 1, ошибка типа 2, уровень значимости и т. Д. Для ясного понимания, Обратитесь.

Итак, формулировка проблемы выглядит следующим образом:

Компания-производитель снеков утверждает, что максимальное содержание насыщенных жиров в упаковке чипсов составляет 2 грамма со стандартным отклонением 0,25. Тест на образце из 35 пакетов показывает, что средний насыщенный жир составляет 2,1 грамма. Следует ли отклонить иск компании-производителя снэков?

Давайте проверим нулевую гипотезу на уровне значимости 5%.

Шаг 1. Установите нулевую гипотезу и альтернативную гипотезу.

H0: u ≤ 2 (нулевая гипотеза)

H1: u ›2 (Правосторонний тест) (Альтернативная гипотеза)

Шаг 2: Рассчитайте статистику теста

Поскольку id размера выборки больше 30, мы вычисляем Z-статистику.

u = 2 (среднее по совокупности)

x̅ = 2,1 (среднее значение)

σ = 0,25 (стандартное отклонение совокупности)

n = 35 (размер выборки)

SE = σ / sqrt (n) = 0,0422 (стандартное отклонение выборки)

Z = (x̄ - u) / SE (Z-оценка)

Шаг 3. Рассчитайте критическое значение для уровня значимости 0,05 или уровня достоверности 95%.

Zα = Z * 0,05 = 1,644 (критическое значение)

Шаг 4: Сравните статистику теста (в данном случае статистику Z) с критическим значением и завершите тест.

Статистика теста (в данном случае Z-статистика) ›1,644 (критическое значение)

Итак, Z значимо, а нулевая гипотеза (H0) отклонена.

Следовательно, при уровне значимости 5% или 0,05 требование о содержании не более 2 граммов насыщенных жиров в пакете чипсов должно быть отклонено.

Продолжайте учиться - никогда не прекращайте учиться

Это было простое руководство по проверке гипотез, которое является важной частью моделирования.

Я буду писать больше постов в будущем. Следуй за мной в Medium. Оставьте отзыв или критику, и со мной можно будет связаться в Twitter.

Спасибо за чтение :)

Надеюсь, вам понравилось, и вы узнали что-то новое.