НАУЧНЫЙ МЕТОД

«Научный метод» — это процедура, характерная для естествознания с XVII века. Он состоит в систематическом наблюдении, измерениях, экспериментах, а также формулировании, проверке и модификации гипотезы.

С тех пор мы развились до такой степени, что большинство людей, и особенно профессионалы, понимают, что простое наблюдение может быть обманчивым. Таким образом, бизнес-решения все больше зависят от данных. Это также цель науки о данных.

Есть несколько шагов, которые вы должны предпринять, чтобы принять решение, основанное на данных.

ГИПОТЕЗА

Определение (неофициальное) —Гипотеза — это «идея, которую можно проверить».

Определение (формальное) —это предположение или предлагаемое объяснение, сделанное на основе ограниченных доказательств в качестве отправной точки для дальнейшего исследования.

Нулевая гипотеза: —

  • Нулевая гипотеза — это гипотеза, подлежащая проверке.
  • Это статус-кво.
  • Концепция нулевого значения аналогична: невиновен, пока его вина не доказана. Мы предполагаем невиновность до тех пор, пока у нас не будет достаточно улик, чтобы доказать, что подозреваемый виновен.

Альтернативная гипотеза: —

  • Альтернативная гипотеза — это изменение или инновация, которые оспаривают статус-кво.
  • Обычно альтернативой является наше собственное мнение.
  • Идея заключается в следующем: если нуль — это статус-кво (т. е. то, во что обычно верят), то акт выполнения теста показывает, что у нас есть сомнения в правдивости нуля. Чаще всего мнение исследователя содержится в альтернативной гипотезе.

Пример гипотезы: —

Моя жена Сакши сказала мне, что средняя зарплата специалиста по данным в Купертино составляет ≥ 185 000 долларов, поэтому нулевая гипотеза такова: средняя зарплата ≥ 185 000 долларов.

Мое мнение, что она может ошибаться, поэтому мы это проверяем. Следовательно, альтернативная гипотеза такова: средняя зарплата ‹ 185 000 долларов.

РЕШЕНИЯ, КОТОРЫЕ ВЫ МОЖЕТЕ ПРИНЯТЬ

При тестировании можно принять два решения: принять нулевую гипотезу или отклонить нулевую гипотезу.

  • Принятьнулевое значение означает, что недостаточно данных для поддержки изменения или новшества, привносимого альтернативой.
  • Отклонитьнуль означает, что имеется достаточно статистических доказательств того, что статус-кво не соответствует истине.

Учитывая двусторонний тест: -

  • Графически хвосты распределения показывают, когда мы отвергаем нулевую гипотезу («область отклонения»).
  • Все, что остается посередине, является «зоной приема».
  • Обоснование таково: если наблюдаемая статистика слишком далека от 0 (в зависимости от уровня значимости), мы отвергаем нулевое значение. В противном случае мы принимаем это.

Различные способы сообщить результат: —

Принять — при значимости x% мы принимаем нулевую гипотезу.

Отклонить — при значимости x% мы отклоняем нулевую гипотезу.

УРОВЕНЬ ЗНАЧИМОСТИ И ВИДЫ ИСПЫТАНИЙ

Уровень значимости (α) —вероятность отклонения истинной нулевой гипотезы; вероятность совершения этой ошибки.

Общие уровни значимости: 0,1, 0,05, 0,01.

Двусторонний (двусторонний) тест:

Используется, когда нуль содержит знак равенства (=) или знак неравенства (≠).

Односторонний (односторонний) тест:

Используется, когда нулевая гипотеза не содержит знака равенства (=) или знака неравенства (›, ‹, ≤, ≥).

СТАТИСТИЧЕСКИЕ ОШИБКИ

В общем, есть два типа ошибок, которые мы можем допустить при тестировании:

  1. Ошибка I рода (ложноположительный результат).
  2. Ошибка II типа (ложноотрицательный результат).

Статистики суммируют ошибки в следующей таблице:

Вероятность совершения ошибки I рода (False Positive) равна уровню значимости (α).

Вероятность совершения ошибки типа II (ложноотрицательный результат) равна бета (β).

P-ЗНАЧЕНИЕ

Значение p — это наименьший уровень значимости, при котором мы все еще можем отклонить нулевую гипотезу, учитывая наблюдаемую статистику выборки.

Когда мы проверяем гипотезу, мы всегда стремимся к тем самым «трем нулям после точки». Это указывает на то, что мы отвергаем нуль на всех уровнях значимости.

0,05 часто является «гранью отсечки». Если наше p-значение выше 0,05, мы обычно принимаем нулевую гипотезу (эквивалентную проверке на уровне значимости 5%). Если p-значение ниже 0,05, мы отклоним нулевое значение.

Где и как используются p-значения?

  • Большинство статистических программ рассчитывают p-значения для каждого теста.
  • Исследователь может определить уровень значимости постфактум.
  • p-значения обычно находятся с 3 цифрами после точки (x.xxx).
  • Чем ближе к 0,000 значение p, тем лучше.

ФОРМУЛЫ ДЛЯ ПРОВЕРКИ ГИПОТЕЗ