Один из наиболее сложных аспектов для программистов, начинающих заниматься машинным обучением и анализом данных, особенно для тех, кто не имеет опыта в статистике, - это широкое применение различных статистических концепций в моделировании. Хотя интуиция остается достаточно удовлетворительной, чтобы понять идею, лежащую в основе большинства моделей обучения с учителем и без учителя, идеи и концепции интерпретации остаются неуловимыми без опыта в области статистики. Эта статья представляет собой краткую шпаргалку для таких же моделистов, как я, которые хоть и знают важные статистические параметры, но часто задаются вопросом о реальных значениях и «значении» вещей. Что мы имеем в виду, когда говорим «значительный» или «уверенный»? Что такое логическая статистика и как ее можно выразить или интерпретировать словами? В этой статье основное внимание уделяется выражению статистических методов, необходимых для моделирования, на понятном языке и необходимости статистической грамотности для лучшего понимания наших моделей.

В этой статье мы обсудим следующие концепции:

· Логическая статистика
· Основы доверительных интервалов
· Проверка гипотез

1.Инференционная статистика для новичков: что, зачем и как?

Выводная статистика в основном пытается говорить о совокупности, используя выборку этой совокупности с различными переменными, собранными с использованием нескольких стратегий обследования. Например, если кто-то пытается сделать утверждение обо всей популяции подростков в городе A только с выборкой, скажем, 1000 подростков из того же города, для этого потребуется выводная статистика. Выводная статистика - это основа исследований в каждой дисциплине, которая используется для ответа (или изучения) вопросов исследования.

Существует «интересующий параметр» генеральной совокупности, который мы попытаемся «оценить» на основе выборки, но с «несколькими стандартными ошибками». Давайте подумаем об этом, как о обоснованном предположении о неизвестном параметре из выборки, но с определенным представлением о том, насколько ваше предположение может пойти не так. (Стандартная ошибка)

2. Основы доверительных интервалов

Доверительные интервалы можно описать как диапазон значений, которые мы получаем при оценке нашего «параметра интереса». Это выражается как:

Лучшая оценка +/- предел погрешности

Давайте разберемся с этим. Если у нас есть популяция P, из которой мы собрали образец S. Нашим интересующим параметром является доля этой популяции P, которая любит шоколадное мороженое. Однако наша выборка, которая представляет собой очень маленькое значение, имеет среднюю долю x, и мы хотим оценить долю населения X. Таким образом, «x» - это наша Лучшая оценка, и мы также должны учитывать допущенную нами ошибку. Итак, наш доверительный интервал будет: x +/- Допустимая погрешность.

Предел погрешности = несколько стандартных ошибок
«несколько» - это множитель (оценка Z, оценка T для данного доверительного интервала) * Стандартная ошибка.
Давайте рассмотрим пример: у нас есть выборка взрослого населения из CityVille, которые ответили «Да» или «Нет» на вопрос анкеты «Предпочитаете ли вы шоколадное мороженое ванилью?». Общее количество составляет 500, а количество «Да» - 360. Давайте попробуем ответить оценка Какая часть людей предпочитает шоколадное мороженое ванили? из этих данных.

Давайте сначала подумаем об этой проблеме. Основное распределение проблемы - это биномиальное распределение, выборочная пропорция p ’(360/500) является двоичной случайной величиной. Доля выборки также известна как Точечная оценка доли населения.

Население: Взрослые в Ситивилле
Интересующий параметр: Доля (взрослых, предпочитающих шоколадное мороженое ванили)
Предмет исследования : оценка доли взрослых, которые предпочитают шоколадное мороженое ванили, в Ситивилле с доверительным интервалом 95%.

Теперь расчетная стандартная ошибка для оценки доли населения определяется как:

где p-hat - наилучшая оценка (0,72), n - количество выборок. Множитель можно взять из Z-таблицы:

Таким образом, мы заменяем множитель «Z» в уравнении:

Интерпретация. Этот интервал представляет собой диапазон разумных значений интересующего нас параметра: это доля населения в СитиВилле, которая предпочитает шоколадное мороженое ванильному мороженому. Таким образом, с достоверностью 95% , доля взрослого населения, предпочитающего шоколадное мороженое ванили, оценивается от 68,1% до 75,9%. Это также означает, что если это исследование проводится несколько раз с одним и тем же размером выборки, то в 95% случаев истинная доля населения будет находиться в пределах доверительного интервала. Следовательно, это уверенность в методе, который использовался для достижения оценки, а не вероятность. Теперь возникает интересный вопрос о том, можем ли мы сделать вывод, что население, которое предпочитает шоколадное мороженое, составляет большинство из этого исследования. Если мы посмотрим на интервал, ответ на самом деле будет «Да». Причина в том, что даже самая низкая оценка в интервале, то есть 68,1%, намного превышает 50%. Если бы интервал находился в пределах от 49% до 61%, мы не смогли бы сделать выводы о большинстве.

Теперь уверенная оценка параметров может выполняться во многих сценариях. Вышеупомянутое было лишь примером оценки доли населения. Мы также можем оценить разницу двух пропорций, среднее значение совокупности, разницу средних значений. Для всех этих сценариев уравнения для стандартной ошибки и множителя могут быть найдены простым поиском в Google. Как и множители Z *, у нас также есть множители t *.

Для получения дополнительной информации о стандартных уравнениях ошибок, множителях Z и t посетите: https://www.dummies.com/education/math/statistics/statistics-for-dummies-cheat-sheet/ и прокрутите вниз до раздела Surveying Statistical Confidence Интервалы.

3. Проверка гипотез

Проверка гипотез выполняется, чтобы ответить на исследовательские вопросы об интересующем параметре. Гипотеза - это как обоснованное предположение, которое мы делаем, ее можно проверить. Первый шаг - сформулировать нулевую гипотезу, затем проверить нулевую гипотезу и принять или отклонить ее.

Например, политик считает, что мнение о его кандидатуре, которое было незначительно положительным (0,53 -Пропорция положительных отзывов), отозвалось эхом после кампании, которую он недавно провел, и приводит к более положительным откликам.

Альфа-уровень значимости выбран равным 0,05. По сути, это вероятность отклонения нулевой гипотезы, даже если она верна, или ошибки типа I. Если мы выберем альфа 0,05 при проведении нашего теста, это означает, что у нас есть только 5% шанс ошибочного отклонения нулевой гипотезы.

Вернемся к нашему тесту: политик берет выборку из 600 человек и обнаруживает, что 387 из них проголосовали за него положительно (0,61). Чтобы проверить нулевую гипотезу, нам нужно рассчитать тестовую статистику.

Тестовая статистика = Z = (0,61–0,53) / 0,019 = 4,21. Это означает, что доля нашей выборки на 4,21 нулевых стандартных ошибки превышает нашу гипотетическую пропорцию. Статистика теста Z имеет Т-распределение, и из этого распределения мы можно вычислить наше p-значение. Значение p равно 0,000013, что намного меньше нашего альфа 0,05. Следовательно, мы можем отвергнуть нулевую гипотезу.

Примечание. Мы также можем вычислить значение p для двусторонней гипотезы. Чтобы понять, нужно ли нам рассчитывать двусторонний тест (где альфа-значения заштрихованы на обоих концах распределения), мы должны увидеть формулировку альтернативной гипотезы. Если у альтернативной гипотезы больше или меньше символа, это односторонний тест. Мы учитываем один конец распределения.

p-значение для двустороннего теста.

Я надеюсь, что эта статья была интересным чтением для тех, кто хотел получить простое введение в выводную статистику, прежде чем они смогут глубоко погрузиться в мир программирования и моделирования в области науки о данных. Я надеюсь в ближайшее время придумать следующую часть этой статьи, которая будет посвящена тому, как интерпретировать модели и использовать концепции, обсужденные выше, в Python!

Спасибо за чтение!

Вы можете найти отличный образовательный контент по выводной статистике по следующим ссылкам: