НАУЧНЫЙ МЕТОД
«Научный метод» — это процедура, характерная для естествознания с XVII века. Он состоит в систематическом наблюдении, измерениях, экспериментах, а также формулировании, проверке и модификации гипотезы.
С тех пор мы развились до такой степени, что большинство людей, и особенно профессионалы, понимают, что простое наблюдение может быть обманчивым. Таким образом, бизнес-решения все больше зависят от данных. Это также цель науки о данных.
Есть несколько шагов, которые вы должны предпринять, чтобы принять решение, основанное на данных.
ГИПОТЕЗА
Определение (неофициальное) —Гипотеза — это «идея, которую можно проверить».
Определение (формальное) —это предположение или предлагаемое объяснение, сделанное на основе ограниченных доказательств в качестве отправной точки для дальнейшего исследования.
Нулевая гипотеза: —
- Нулевая гипотеза — это гипотеза, подлежащая проверке.
- Это статус-кво.
- Концепция нулевого значения аналогична: невиновен, пока его вина не доказана. Мы предполагаем невиновность до тех пор, пока у нас не будет достаточно улик, чтобы доказать, что подозреваемый виновен.
Альтернативная гипотеза: —
- Альтернативная гипотеза — это изменение или инновация, которые оспаривают статус-кво.
- Обычно альтернативой является наше собственное мнение.
- Идея заключается в следующем: если нуль — это статус-кво (т. е. то, во что обычно верят), то акт выполнения теста показывает, что у нас есть сомнения в правдивости нуля. Чаще всего мнение исследователя содержится в альтернативной гипотезе.
Пример гипотезы: —
Моя жена Сакши сказала мне, что средняя зарплата специалиста по данным в Купертино составляет ≥ 185 000 долларов, поэтому нулевая гипотеза такова: средняя зарплата ≥ 185 000 долларов.
Мое мнение, что она может ошибаться, поэтому мы это проверяем. Следовательно, альтернативная гипотеза такова: средняя зарплата ‹ 185 000 долларов.
РЕШЕНИЯ, КОТОРЫЕ ВЫ МОЖЕТЕ ПРИНЯТЬ
При тестировании можно принять два решения: принять нулевую гипотезу или отклонить нулевую гипотезу.
- Принятьнулевое значение означает, что недостаточно данных для поддержки изменения или новшества, привносимого альтернативой.
- Отклонитьнуль означает, что имеется достаточно статистических доказательств того, что статус-кво не соответствует истине.
Учитывая двусторонний тест: -
- Графически хвосты распределения показывают, когда мы отвергаем нулевую гипотезу («область отклонения»).
- Все, что остается посередине, является «зоной приема».
- Обоснование таково: если наблюдаемая статистика слишком далека от 0 (в зависимости от уровня значимости), мы отвергаем нулевое значение. В противном случае мы принимаем это.
Различные способы сообщить результат: —
Принять — при значимости x% мы принимаем нулевую гипотезу.
Отклонить — при значимости x% мы отклоняем нулевую гипотезу.
УРОВЕНЬ ЗНАЧИМОСТИ И ВИДЫ ИСПЫТАНИЙ
Уровень значимости (α) —вероятность отклонения истинной нулевой гипотезы; вероятность совершения этой ошибки.
Общие уровни значимости: 0,1, 0,05, 0,01.
Двусторонний (двусторонний) тест:
Используется, когда нуль содержит знак равенства (=) или знак неравенства (≠).
Односторонний (односторонний) тест:
Используется, когда нулевая гипотеза не содержит знака равенства (=) или знака неравенства (›, ‹, ≤, ≥).
СТАТИСТИЧЕСКИЕ ОШИБКИ
В общем, есть два типа ошибок, которые мы можем допустить при тестировании:
- Ошибка I рода (ложноположительный результат).
- Ошибка II типа (ложноотрицательный результат).
Статистики суммируют ошибки в следующей таблице:
Вероятность совершения ошибки I рода (False Positive) равна уровню значимости (α).
Вероятность совершения ошибки типа II (ложноотрицательный результат) равна бета (β).
P-ЗНАЧЕНИЕ
Значение p — это наименьший уровень значимости, при котором мы все еще можем отклонить нулевую гипотезу, учитывая наблюдаемую статистику выборки.
Когда мы проверяем гипотезу, мы всегда стремимся к тем самым «трем нулям после точки». Это указывает на то, что мы отвергаем нуль на всех уровнях значимости.
0,05 часто является «гранью отсечки». Если наше p-значение выше 0,05, мы обычно принимаем нулевую гипотезу (эквивалентную проверке на уровне значимости 5%). Если p-значение ниже 0,05, мы отклоним нулевое значение.
Где и как используются p-значения?
- Большинство статистических программ рассчитывают p-значения для каждого теста.
- Исследователь может определить уровень значимости постфактум.
- p-значения обычно находятся с 3 цифрами после точки (x.xxx).
- Чем ближе к 0,000 значение p, тем лучше.