Важные вопросы статистики

В этом блоге я постараюсь добавить статистику Вопросы, которые были заданы в интервью (Часть 2)

Для части 1 (вопросы с 1 по 6) перейдите по этой ссылке — Важные вопросы, часть 1

Вопрос 7) Что вы подразумеваете под смещением выборки?

Ответ) Прежде чем объяснять смещение выборки, давайте сначала разберемся, что такое выборка и выборка.

Выборка – это подмножество лиц из большей совокупности.

Выборка - это метод отбора отдельных членов или подмножества населения для получения статистических выводов из них и оценки характеристик всего населения.

Смещение выборки — это смещение, при котором выборка собирается таким образом, что некоторые члены предполагаемой совокупности имеют более низкую или более высокую вероятность выборки, чем другие. Это приводит к смещенной выборке населения, в которой все люди или экземпляры не были выбраны с одинаковой вероятностью.

Вопрос 8) Что вы понимаете под ошибкой 1-го и 2-го типа?

Ответ) Ошибка типа 1. Когда нулевая гипотеза верна и вы ее отвергаете, вы совершаете ошибку типа I.

Вероятность совершения ошибки первого рода равна α, то есть уровню значимости, установленному вами для проверки гипотезы. Значение α, равное 0,05, указывает на то, что вы готовы принять 5-процентную вероятность того, что вы ошибаетесь, когда отвергаете нулевую гипотезу. Чтобы снизить этот риск, вы должны использовать более низкое значение для α. Однако использование более низкого значения альфы означает, что вы с меньшей вероятностью обнаружите истинное различие, если оно действительно существует.

Ошибка типа 2. Если нулевая гипотеза ложна и вы не можете ее отвергнуть, вы совершаете ошибку типа II.

Вероятность совершения ошибки второго рода равна β и зависит от мощности теста. Вы можете снизить риск совершения ошибки типа II, убедившись, что ваш тест имеет достаточную мощность. Вероятность отклонения нулевой гипотезы, когда она ложна, равна 1–β. Это значение является мощностью теста.

Вопрос 9) Из ошибок типа 1 и типа 2, какая из них более серьезная?

Ответ) Ошибка Типа 1 и Типа 2 полностью зависит от сценария или ситуации. Иногда ошибка типа 1 более серьезна, а иногда ошибка типа 2.

Эти два типа ошибок обратно пропорциональны друг другу: уменьшение числа ошибок 1-го типа приведет к увеличению ошибок 2-го типа, и наоборот. Чтобы решить, когда ошибка типа 1 или типа 2 будет безопаснее, давайте рассмотрим пару сценариев.

Сценарий 1. Предположим, вы член присяжных, которому поручено решить, следует ли приговорить человека к тюремному заключению за преступление. Если бы они действительно были невиновны, ошибка типа 1 предполагала бы, что вы посадите их в тюрьму. В то время как ошибка типа 2 здесь означает, что кто-то действительно совершил преступление, и присяжные позволяют ему избежать наказания за это. В этом случае ошибка типа 1 хуже, чем ошибка типа 2.

Сценарий 2 — пример медицинской ситуации. Больной с мигренозными головными болями направлен к врачу на МРТ головы. Вот в этом случае ошибка типа 1 врач сказал бы, что есть опухоль головного мозга, но на самом деле у человека опухоли нет. Ошибка типа 2 может заключаться в том, что у пациента опухоль головного мозга, но врач настаивает на том, что с ними все в порядке. Таким образом, в этом случае ошибка типа 2 будет более серьезной, чем ошибка типа 1.

Вопрос 10) Объясните корреляцию и ковариацию.

Ответ) Корреляция показывает, связаны ли и насколько сильно пары переменных друг с другом. Корреляция принимает значения от -1 до +1, где значения, близкие к +1, представляют сильную положительную корреляцию, а значения, близкие к -1, представляют сильную отрицательную корреляцию.

Если между двумя переменными вообще нет связи, то коэффициент корреляции заведомо будет равен 0.

Ковариация. указывает направление линейной зависимости между двумя переменными. Под направлением мы подразумеваем, если переменные прямо пропорциональны или обратно пропорциональны друг другу.

Он может принимать любое значение от -infinity до +infinity, где отрицательное значение представляет отрицательную связь, а положительное значение представляет
положительную связь.

Вопрос 11) Объясните доверительный интервал.

Ответ) Доверительные интервалы измеряют степень неопределенности или уверенности в методе выборки. Они могут иметь любое количество пределов вероятности, наиболее распространенным из которых является уровень достоверности 95 % или 99 %.

Доверительный интервал отображает вероятность того, что параметр окажется между парой значений около среднего значения. Доверительные интервалы предоставляют больше информации, чем точечные оценки. Установив 95% доверительный интервал, используя среднее значение выборки и стандартное отклонение, и предполагая нормальное распределение, представленное кривой нормального распределения, исследователи получают верхнюю и нижнюю границы, которые содержат истинное среднее значение в 95% случаев.

Давайте разберемся с доверительным интервалом на примере. Предположим, группа исследователей изучает рост баскетболистов средней школы. Предположим, что интервал составляет от 70 до 75 дюймов.

Таким образом, доверительный интервал 95% означает, что если исследователи возьмут 100 случайных выборок из популяции баскетболистов средней школы в целом, среднее значение должно быть между 70 и 75 дюймами в 95 из этих выборок.

Вопрос 12) Объясните p-значение.

Ответ) p-значение, значение вероятности – это число, описывающее вероятность того, что ваши данные появились бы случайно ( то есть нулевая гипотеза верна).

Уровень статистической значимости часто выражается как p-значение между 0 и 1. Чем меньше p-значение, тем сильнее свидетельство того, что вы должны отклонить нулевую гипотезу.

Некоторые важные моменты p-значения:

p-значение менее 0,05 (обычно ≤ 0,05) является статистически значимым. Это указывает на убедительные доказательства против нулевой гипотезы, поскольку вероятность того, что нуль верна, составляет менее 5%. Поэтому мы отвергаем нулевую гипотезу и принимаем альтернативную гипотезу.
значение p выше 0,05 не является статистически значимым и указывает на убедительные доказательства в пользу нулевой гипотезы. Это означает, что мы сохраняем нулевую гипотезу и отвергаем альтернативную гипотезу.

Это были основные вопросы, с которыми я сталкивался на разных интервью для Data Science. Надеюсь, эти вопросы будут вам полезны. Спасибо за чтение этого блога. Если помимо этого у вас появятся еще вопросы по статистике интервью, то пишите в комментариях.

Также проверьте это Для части 1 (вопросы с 1 по 6) перейдите по этой ссылке — Важные вопросы, часть 1

Подписаться на LinkedIn

Важные вопросы статистики — Часть 2