Как подойти к проверке гипотез
Проверка гипотезы - неотъемлемый этап машинного обучения перед построением моделей, повышающих ценность бизнеса.
И этот шаг кажется действительно важным для каждого специалиста по данным или инженера по машинному обучению. Хотя мы сосредотачиваемся только на построении моделей и повышении их точности, мы часто забываем, что построение гипотезы без фактического просмотра данных является решающим шагом.
И с этой мыслью мы склонны строить предвзятую модель (один из примеров), которая впоследствии не работает хорошо, и мы в конечном итоге думаем, что пошло не так!
Итак, чтобы этого избежать, мы генерируем гипотезы. Я прочитал много статей и блогов в Интернете, но не нашел простого объяснения проверки гипотез. Так что сделаю это простым и понятным. :)
Этот пост посвящен объяснению проверки гипотез, необходимости проверки гипотез и ее упрощению на примере.
Что такое проверка гипотез?
Проверка гипотезы - это статистический метод, который оценивает два взаимоисключающих утверждения (гипотезы) о совокупности и определяет, какое утверждение удовлетворяет выборочным данным.
Поняли? Очевидно, немного. Итак, мы пытаемся разобраться с основным.
Гипотеза - это утверждение или утверждение о параметре утверждения.
Например, «Среднее по совокупности 120».
- Каждая гипотеза подразумевает свое Противоречие или Альтернативу.
- Верно или неверно?
- Может быть отклонено на основании свидетельских показаний, доказательств или выборки.
Типы гипотез
- Нулевая гипотеза: это первый шаг в проверке гипотез.
- Он обозначается H0 (произносится как «H not») и обычно является гипотезой «без разницы».
- Он выполняется при возможном отклонении при истинном предположении и всегда относится к заданному значению параметра совокупности.
2. Альтернативная гипотеза: она дополняет нулевую гипотезу.
- Он обозначается H1 (произносится как «H one»).
- Он используется, чтобы решить, использовать ли односторонний или двусторонний тест.
Указывая на предыдущий пример,
«Среднее значение для генеральной совокупности 120»; следующую гипотезу можно определить как
H0: u = 120 (нулевая гипотеза)
H1: u ≠ 120 (Альтернативная гипотеза) (Двусторонний тест)
H1: u ›120 (Правосторонний тест) (Односторонний тест) (Альтернативная гипотеза)
H1: u ‹120 (Левосторонний тест) (Односторонний тест) (Альтернативная гипотеза)
Зачем рождаются гипотезы?
Создание гипотезы - важный шаг, который мы все должны сделать.
Также:
- Прежде чем исследовать данные, нам нужно понять взаимосвязь между переменными в наборе данных, поэтому мы должны сначала сформировать гипотезу.
- Кажется нелогичным? Нет. Для решения проблемы мы должны сначала подумать о бизнес-проблеме, получить знания о предметной области, а также получить непосредственный опыт решения проблемы.
- Как это помогает? Эта практика обычно помогает нам создавать более совершенные функции позже, во время разработки функций, которые свободны от каких-либо предубеждений, связанных с данными, доступными в наборе данных.
- Типа мозгового штурма перед просмотром данных? Да, вы меня поняли. По сути, это включает мозговой штурм и выдвижение как можно большего количества идей о том, что может повлиять на целевую переменную. Доведите свою идею, генерирующую часть мозга, до максимальной эффективности: p
Таким образом, создание гипотез следует всегда выполнять до просмотра данных, иначе вы закончите с предвзятой гипотезой и меньшей точностью.
Всегда придумывайте множество собственных гипотез, чем больше, тем лучше. Это поможет нам разобраться в проблеме и выявить лучшие особенности с высокой корреляцией.
Проведение проверки гипотез
Чтобы выполнить проверку гипотезы, нам необходимо четко понимать некоторые основные термины, такие как ошибка типа 1, ошибка типа 2, уровень значимости и т. Д. Для ясного понимания, Обратитесь.
Итак, формулировка проблемы выглядит следующим образом:
Компания-производитель снеков утверждает, что максимальное содержание насыщенных жиров в упаковке чипсов составляет 2 грамма со стандартным отклонением 0,25. Тест на образце из 35 пакетов показывает, что средний насыщенный жир составляет 2,1 грамма. Следует ли отклонить иск компании-производителя снэков?
Давайте проверим нулевую гипотезу на уровне значимости 5%.
Шаг 1. Установите нулевую гипотезу и альтернативную гипотезу.
H0: u ≤ 2 (нулевая гипотеза)
H1: u ›2 (Правосторонний тест) (Альтернативная гипотеза)
Шаг 2: Рассчитайте статистику теста
Поскольку id размера выборки больше 30, мы вычисляем Z-статистику.
u = 2 (среднее по совокупности)
x̅ = 2,1 (среднее значение)
σ = 0,25 (стандартное отклонение совокупности)
n = 35 (размер выборки)
SE = σ / sqrt (n) = 0,0422 (стандартное отклонение выборки)
Z = (x̄ - u) / SE (Z-оценка)
Шаг 3. Рассчитайте критическое значение для уровня значимости 0,05 или уровня достоверности 95%.
Zα = Z * 0,05 = 1,644 (критическое значение)
Шаг 4: Сравните статистику теста (в данном случае статистику Z) с критическим значением и завершите тест.
Статистика теста (в данном случае Z-статистика) ›1,644 (критическое значение)
Итак, Z значимо, а нулевая гипотеза (H0) отклонена.
Следовательно, при уровне значимости 5% или 0,05 требование о содержании не более 2 граммов насыщенных жиров в пакете чипсов должно быть отклонено.
Продолжайте учиться - никогда не прекращайте учиться
Это было простое руководство по проверке гипотез, которое является важной частью моделирования.
Я буду писать больше постов в будущем. Следуй за мной в Medium. Оставьте отзыв или критику, и со мной можно будет связаться в Twitter.
Спасибо за чтение :)
Надеюсь, вам понравилось, и вы узнали что-то новое.