Проверка гипотез в двух словах

Почему некоторые люди всегда могут делать более значимые выводы очень быстро, когда всем предоставляется один и тот же набор необработанных данных?

Если вы участвовали в каком-либо мероприятии Hackathon или аналогичном соревновании, вы должны знать, что всем участникам предоставляются одни и те же общедоступные наборы данных и исследовательские задачи. Но решить ее в срок смогут лишь несколько команд.

Это возможно только путем выбора правильных атрибутов данных, от которых следует зависеть. Это позволяет нам построить точную и последовательную модель с первой попытки, без каких-либо переделок.

Эта статья посвящена распознаванию влияния неправильных предположений и пониманию простых методов преобразования предположений в статистически подтвержденные утверждения.

Решения, основанные на статистически подтвержденных утверждениях, будут иметь лучшую последовательность и точность в конечном результате. Повышает конкурентоспособность по срокам и стоимости проекта.

Влияние ошибочных предположений

Неточная модель, ведущая к потере бизнеса.

Сценарий 1

Предположим, что ваша компания получила запрос предложения от телекоммуникационного агентства на ежегодное обслуживание сетевых кабелей на новой территории.

Делая предложение, ваша команда сделала предположение: количество отказов кабеля связано с количеством абонентов на территории.

Если принять во внимание это предположение без какой-либо проверки, расчетная стоимость обслуживания может оказаться ниже. Ведь на новой территории абонентов будет меньше.

Если предположение не сработает во время выполнения проекта, вы заметите больше отказов кабеля даже при более низкой базе подписки, и это принесет убытки бизнесу.

Сценарий 2

Точно так же, чтобы оптимизировать свои продажи, розничный магазин хочет знать, есть ли связь между погодными условиями дня и происходящими продажами. Соответственно, они могут временно пополнить свой штат.

Если вы зададите этот вопрос персоналу, они могут высказать разные мнения. Некоторые говорят «да», продажи лучше в солнечный день, а другие говорят, что это не имеет значения.

Если будет задействовано больше контрактных сотрудников, и если предположение не удастся, бизнес может в конечном итоге выплачивать больше заработной платы. Если персонал по контракту не задействован, если предположение не удастся, бизнес может оказаться не в состоянии удовлетворить возникший спрос.

Во всех этих случаях статистическая проверка предположения перед их рассмотрением для построения модели могла бы снизить вероятность отказа модели.

Теперь давайте посмотрим, как это сделать за 3 простых шага.

Шаги для проверки предположений:

1. Определите вопрос исследования

  • Перечислите все переменные, как категориальные, так и числовые, доступные в образце набора данных.
  • Перечислите предположения, которые могут способствовать логике решения основной проблемы.
  • Определите эти предположения как Вопросы, которые нам нужно исследовать и выяснить статистическую значимость.

Пример:

  • Есть ли разница между категориями?
  • Есть ли зависимость между этими числовыми переменными?

Допущения могут быть на уровне отдельных переменных или на уровне группы переменных.

Объедините переменные категории в две группы и предположите, что между группами есть некоторая разница.

Объедините числовые переменные в группу и объясните взаимосвязь между этими переменными.

2. Опишите гипотезу

  • Опишите нулевую гипотезу: принятое в настоящее время предположение о численности населения.
  • Получите альтернативную гипотезу: противоположность нулевой гипотезы, которая имеет некоторые шансы на то, чтобы быть верной.
  • Определить альфа-значение: точка отсечения для принятия отклонения нулевой гипотезы.

Статистическая значимость (p-значение) нулевой гипотезы сравнивается с этим альфа-значением.

3. Провести тест

Создайте сводку числовых переменных в каждой группе и вычислите следующие основные статистические данные:

  • иметь в виду
  • медиана
  • диапазон и
  • межквартильный размах.

В зависимости от количества категориальных и числовых переменных, доступных в вопросе исследования, проведите один из следующих тестов:

  • тест пропорции,
  • хи-квадрат,
  • анова,
  • t-тест или
  • корреляционный тест.

Этот тест дает p-значение.

Если p-значение больше или равно альфа-значению: рассматривается нулевая гипотеза. Это указывает на то, что гипотеза нулевого значения имеет значительные статистические доказательства.

Если значение p меньше заданного значения альфа: нулевая гипотеза будет отклонена, а альтернативная гипотеза верна на определенном уровне достоверности (значение альфа).

Резюме

Помните, что в статистике мы ничего не доказываем и не опровергаем. Мы рассчитываем статистическую значимость только на определенном уровне достоверности.

Если ваши предположения строго подтверждены в соответствии со статистикой, описанной выше, ваши шансы сделать это правильно с первого раза намного выше.

Ссылка:

  1. Введение в проверку гипотез в статистике - Проблемы и примеры проверки гипотез
  2. Статистика - это просто! ! ! Узнайте о t-тесте, критерии хи-квадрат, p-значении и многом другом
  3. Проверка гипотез вручную: t-критерий для единственной выборки (левосторонний тест)
  4. Проверка гипотез количественных методов, уровень 1 CFA, LO11
  5. Математика A-Level: O1–05 Проверка гипотез: Введение в PMCC

Первоначально опубликовано на https://www.meritedin.com.