Числовые вопросы
- Выборка из 50 домохозяйств имеет средний доход 75 000 долларов США и стандартное отклонение 10 000 долларов США. Каков 95% доверительный интервал для среднего дохода населения?
- Компания утверждает, что их новый продукт увеличивает продажи как минимум на 10%. Выборка из 100 клиентов показала средний рост на 8% при стандартном отклонении 5%. Протестируйте утверждение на уровне значимости 5%.
- Производитель утверждает, что средний вес их коробок с хлопьями составляет 500 г. Образец из 36 коробок имеет средний вес 490 г и стандартное отклонение 20 г. Протестируйте утверждение на уровне значимости 1%.
- Выборка из 200 студентов имеет средний рост 170 см и стандартное отклонение 10 см. Каков 99% доверительный интервал для среднего роста населения?
- Исследователь хочет проверить, есть ли разница в средней заработной плате мужчин и женщин в компании. Выборка из 50 сотрудников-мужчин имеет среднюю заработную плату в размере 80 000 долларов США и стандартное отклонение в размере 12 000 долларов США, в то время как выборка из 50 сотрудников-женщин имеет среднюю заработную плату в размере 85 000 долларов США и стандартное отклонение в размере 10 000 долларов США. Проверьте гипотезу на уровне значимости 5%.
- Производитель утверждает, что их новая лампочка работает не менее 5000 часов. Выборка из 100 лампочек имеет средний срок службы 4900 часов и стандартное отклонение 200 часов. Протестируйте утверждение на уровне значимости 1%.
- Компания утверждает, что среднее время ожидания на телефонной линии службы поддержки клиентов составляет менее 5 минут. Выборка из 25 звонков имеет среднее время ожидания 4,5 минуты и стандартное отклонение 1 минуту. Протестируйте утверждение на уровне значимости 10%.
- Выборка из 30 студентов имеет средний балл 80 и стандартное отклонение 10 на тесте. Какова стандартная ошибка среднего?
- Исследователь хочет оценить долю людей, поддерживающих того или иного политического кандидата. Каков минимальный размер выборки, необходимый для доверительного интервала 95% с погрешностью 3%?
- Производитель хочет оценить средний вес определенного продукта с точностью до 5 г с достоверностью 95%. Предыдущее исследование показало стандартное отклонение 10g. Какой минимальный размер выборки необходим?
- Выборка из 50 домохозяйств имеет средний доход 75 000 долларов США и стандартное отклонение 10 000 долларов США. Каков 95% доверительный интервал для среднего дохода населения?
1.Выборка из 50 домохозяйств имеет средний доход 75 000 долларов США и стандартное отклонение 10 000 долларов США. Каков 95-процентный доверительный интервал для среднего дохода населения?
Отвечать:
Чтобы вычислить 95% доверительный интервал, нам нужно использовать t-распределение с n-1 степенями свободы. Формула доверительного интервала:
CI = X̄ ± t*(s/√n)
где X̄ - среднее значение выборки, s - стандартное отклонение выборки, n - размер выборки, а t - t-показатель, соответствующий желаемому уровню достоверности и степеням свободы.
Для уровня достоверности 95% и 49 степеней свободы (n-1) t-показатель равен 2,009. Подставляя значения из вопроса, мы получаем:
CI = 75,000 ± 2.009*(10,000/√50) = (71,247, 78,753)
Таким образом, мы на 95% уверены, что средний доход населения составляет от 71 247 до 78 753 долларов.
2. Компания утверждает, что их новый продукт увеличивает продажи как минимум на 10%. Выборка из 100 клиентов показала средний рост на 8% при стандартном отклонении 5%. Протестируйте утверждение на уровне значимости 5 %.
Чтобы проверить утверждение компании на уровне значимости 5%, мы можем использовать одновыборочный t-критерий со следующими гипотезами:
Нулевая гипотеза (H0): истинное среднее увеличение продаж меньше или равно 10%. µ ≤ 10%
Альтернативная гипотеза (Ha): истинное среднее увеличение продаж превышает 10%. мк › 10%
Мы можем рассчитать тестовую статистику, используя формулу:
t = (среднее значение выборки — предполагаемое среднее значение) / (стандартное отклонение / sqrt (размер выборки))
где среднее значение выборки равно 8 %, предполагаемое среднее значение равно 10 %, стандартное отклонение равно 5 %, а размер выборки равен 100.
t = (8% — 10%) / (5% / sqrt (100))
t = -4 / 0.5
t = -8
Используя t-таблицу или статистическое программное обеспечение, мы можем найти p-значение, связанное с t-статистикой -8 и 99 степенями свободы (n-1). Значение p чрезвычайно мало, менее 0,0001.
Поскольку p-значение меньше уровня значимости 0,05, мы отклоняем нулевую гипотезу и делаем вывод, что есть доказательства, подтверждающие утверждение о том, что истинное среднее увеличение продаж превышает 10%. Таким образом, заявление компании подтверждается данными выборки.
3. Выборка из 200 студентов имеет средний рост 170 см и стандартное отклонение 10 см. Каков 99% доверительный интервал для среднего роста населения?
Для расчета доверительного интервала можно использовать формулу:
CI = x̄ ± t*(s/√n)
где CI — доверительный интервал, x̄ — среднее значение выборки, s — стандартное отклонение выборки, n — размер выборки, t — t-показатель, соответствующий желаемому уровню достоверности и степеням свободы (df = n-1 ).
Для уровня достоверности 99% и df = 199 t-показатель равен 2,626. Подставляя значения, получаем:
CI = 170 ± 2.626*(10/√200) = (168.03, 171.97)
Таким образом, мы можем быть на 99% уверены, что средний рост населения составляет от 168,03 см до 171,97 см.
Q4 Исследователь хочет проверить, есть ли разница в средней заработной плате мужчин и женщин в компании. Выборка из 50 сотрудников-мужчин имеет среднюю заработную плату в размере 80 000 долларов США и стандартное отклонение в размере 12 000 долларов США, в то время как выборка из 50 сотрудников-женщин имеет среднюю заработную плату в размере 85 000 долларов США и стандартное отклонение в размере 10 000 долларов США. Проверьте гипотезу на уровне значимости 5 %.
Чтобы проверить гипотезу, мы можем использовать двухвыборочный t-критерий. Нулевая гипотеза состоит в том, что средняя заработная плата мужчин и женщин не различается, а альтернативная гипотеза состоит в том, что разница есть.
H0: μ1 = μ2 (нет разницы в средних зарплатах) Ha: μ1 ≠ μ2 (есть разница в средних зарплатах)
Мы можем использовать формулу:
t = (x̄1 — x̄2) / (s1²/n1 + s2²/n2)⁰.5
где x̄1 и x̄2 — средние значения выборки, s1 и s2 — стандартные отклонения выборки, n1 и n2 — размеры выборки.
Подставляя значения, получаем:
t = (80000–85000) / [(12000²/50) + (10000²/50)]⁰.5 = -3.12
Используя двусторонний критерий на уровне значимости 5% с df = 98 (при условии неравных дисперсий), критическое t-значение составляет ± 1,984.
Поскольку наше рассчитанное t-значение (-3,12) находится за пределами критической области, мы можем отклонить нулевую гипотезу и сделать вывод, что существует значительная разница в средней заработной плате между мужчинами и женщинами в компании.
Q5 Производитель заявляет, что срок службы его новой лампочки составляет не менее 5000 часов. Выборка из 100 лампочек имеет средний срок службы 4900 часов и стандартное отклонение 200 часов. Протестируйте утверждение на уровне значимости 1 %.
Чтобы проверить заявление производителя на уровне значимости 1%, мы можем использовать одновыборочный t-критерий. Нулевая гипотеза (H0) состоит в том, что средний срок службы лампочек равен или превышает 5000 часов, в то время как альтернативная гипотеза (H1) состоит в том, что средний срок службы меньше 5000 часов.
Давайте выполним t-тест, используя данную информацию:
Шаг 1: Определите гипотезы: H0: μ ›= 5000 (нулевая гипотеза) H1: μ ‹ 5000 (альтернативная гипотеза)
Шаг 2: Установите уровень значимости (α): α = 0,01
Шаг 3: Вычислите статистику теста: Статистика теста для одновыборочного t-теста определяется как: t = (x̄ — μ) / (s / sqrt(n)), где: x̄ = среднее значение выборки μ = гипотетическое среднее значение генеральной совокупности s = стандартное отклонение выборки n = объем выборки
В этом случае: x̄ = 4900 часов μ = 5000 часов s = 200 часов n = 100 лампочек
t = (4900–5000) / (200 / sqrt (100)) t = -100 / (200 / 10) t = -100 / 20 t = -5
Шаг 4: Определите критическое значение: поскольку альтернативная гипотеза является односторонней (мы проверяем, меньше ли среднее значение 5000), нам нужно найти критическое значение для одностороннего t-критерия с 99 степенями свободы и уровень значимости 0,01.
Используя t-таблицу или статистическое программное обеспечение, мы находим критическое значение примерно равным -2,626.
Шаг 5: Примите решение: если тестовая статистика (t) меньше критического значения, мы отклоняем нулевую гипотезу; в противном случае мы не сможем отвергнуть нулевую гипотезу.
В этом случае t = -5, что меньше -2,626.
Поэтому мы отвергаем нулевую гипотезу.
Шаг 6. Интерпретация результата. На основе выборочных данных имеется достаточно доказательств, чтобы сделать вывод о том, что средний срок службы лампочек составляет менее 5000 часов при уровне значимости 1 %.
Вопрос 6. Компания утверждает, что среднее время ожидания на телефонной линии службы поддержки клиентов составляет менее 5 минут. Выборка из 25 звонков имеет среднее время ожидания 4,5 минуты и стандартное отклонение 1 минуту. Протестируйте утверждение на уровне значимости 10 %.
Чтобы проверить утверждение компании на уровне значимости 10%, мы можем использовать одновыборочный t-критерий. Нулевая гипотеза (H0) состоит в том, что среднее время ожидания на телефонной линии обслуживания клиентов равно или превышает 5 минут, в то время как альтернативная гипотеза (H1) состоит в том, что среднее время ожидания составляет менее 5 минут.
Давайте выполним t-тест, используя данную информацию:
Шаг 1: Определите гипотезы: H0: µ ›= 5 (нулевая гипотеза) H1: µ ‹ 5 (альтернативная гипотеза)
Шаг 2: Установите уровень значимости (α): α = 0,10
Шаг 3: Вычислите статистику теста: Статистика теста для одновыборочного t-теста определяется как: t = (x̄ — μ) / (s / sqrt(n)), где: x̄ = среднее значение выборки μ = гипотетическое среднее значение генеральной совокупности s = стандартное отклонение выборки n = объем выборки
В этом случае: x̄ = 4,5 минуты μ = 5 минут s = 1 минута n = 25 звонков
t = (4,5–5) / (1 / sqrt (25)) t = -0,5 / (1 / 5) t = -0,5 / 0,2 t = -2,5
Шаг 4: Определите критическое значение: поскольку альтернативная гипотеза является односторонней (мы проверяем, не превышает ли среднее время ожидания 5 минут), нам нужно найти критическое значение для одностороннего t-критерия с 24 градусами. свободы и уровень значимости 0,10.
Используя t-таблицу или статистическое программное обеспечение, мы находим критическое значение примерно равным -1,711.
Шаг 5: Примите решение: если тестовая статистика (t) меньше критического значения, мы отклоняем нулевую гипотезу; в противном случае мы не сможем отвергнуть нулевую гипотезу.
В этом случае t = -2,5, что меньше -1,711.
Поэтому мы отвергаем нулевую гипотезу.
Шаг 6. Интерпретация результата. На основе выборочных данных имеется достаточно доказательств, чтобы сделать вывод о том, что среднее время ожидания на телефонной линии обслуживания клиентов составляет менее 5 минут при 10-процентном уровне значимости.
Q7 Выборка из 50 домохозяйств имеет средний доход 75 000 долларов США и стандартное отклонение 10 000 долларов США. Каков 95-процентный доверительный интервал для среднего дохода населения?
Чтобы рассчитать 95% доверительный интервал для среднего дохода населения на основе выборки, мы можем использовать следующую формулу:
Доверительный интервал = выборочное среднее ± (z * (σ / sqrt (n)))
где: среднее значение выборки = 75 000 долларов США z = z-показатель для желаемого уровня достоверности (уровень достоверности 95% соответствует z = 1,96) σ = стандартное отклонение n = размер выборки
Подставляем значения: Доверительный интервал = 75 000 долларов США ± (1,96 * (10 000 долларов США / sqrt(50)))
Доверительный интервал = 75 000 долларов США ± (1,96 * (10 000 долларов США / 7,071))
Доверительный интервал = 75 000 долларов США ± (1,96 * 1414,21 доллара США)
Доверительный интервал ≈ 75 000 долларов США ± 2772,81 доллара США.
Таким образом, 95-процентный доверительный интервал для среднего дохода населения составляет приблизительно от 72 227,19 до 77 772,81 долларов США.
Q8 Производитель хочет оценить средний вес определенного продукта с точностью до 5 г с достоверностью 95 %. Предыдущее исследование показало стандартное отклонение 10g. Какой минимальный размер выборки необходим?
Чтобы рассчитать минимальный размер выборки, необходимый для оценки среднего веса с заданным уровнем достоверности и погрешностью, мы можем использовать следующую формулу:
n = (z² * σ²) / E²
где: n = размер выборки z = z-показатель для желаемого уровня достоверности (уровень достоверности 95% соответствует z = 1,96) σ = стандартное отклонение генеральной совокупности E = предел погрешности
Подставляем значения: n = (1,96² * 10²) / 5²
n ≈ 15.36
Округляя, минимальный необходимый размер выборки составляет 16.
Таким образом, производителю требуется минимальный размер выборки 16, чтобы оценить средний вес продукта в пределах 5 г с доверительной вероятностью 95%.
Вычисление условий ошибки выше
Чтобы рассчитать член ошибки (E) в формуле минимального размера выборки, мы используем желаемую погрешность.
В случае оценки среднего веса определенного продукта допустимая погрешность составляет 5 г. Эта погрешность представляет собой максимальную величину, на которую мы ожидаем, что среднее значение выборки будет отличаться от истинного среднего значения генеральной совокупности.
Таким образом, погрешность (E) равна погрешности, которая в данном случае составляет 5g.
Подставив значение члена ошибки (E = 5g) в формулу, мы можем определить минимальный размер выборки, необходимый для достижения желаемой погрешности и уровня достоверности.
НЕКОТОРЫЕ СЛОЖНЫЕ
Попробуйте сделать это сами.
Q9. Проверка гипотез: рассмотрим сценарий, в котором у вас есть набор данных о суммах покупок клиентов из двух разных маркетинговых кампаний (A и B). Цель состоит в том, чтобы определить, есть ли статистически значимая разница в средней сумме покупки между двумя кампаниями. Вам предоставляется следующая информация:
Кампания А:
- Размер выборки: 100
- Среднее значение выборки: 75 долларов США.
- Стандартное отклонение выборки: $10
Кампания Б:
- Размер выборки: 120
- Среднее значение выборки: $80
- Стандартное отклонение выборки: $12
Q10. Ваша задача — выполнить проверку гипотезы, чтобы определить, есть ли существенная разница в средней сумме покупки между двумя кампаниями. Сформулируйте нулевую и альтернативную гипотезы, рассчитайте статистику теста, определите критическое значение при уровне значимости 0,05 и сделайте вывод на основе результатов.
- Линейная регрессия. Предположим, вам дан набор данных, который содержит информацию о ценах на жилье и различных характеристиках, таких как размер дома, количество спален и местоположение. Ваша цель — построить модель линейной регрессии для прогнозирования цен на жилье на основе заданных характеристик.
Дан обучающий набор данных со следующими характеристиками и целевой переменной:
Размер (в квадратных футах): [1000, 1500, 2000, 1200, 1800] Количество спален: [2, 3, 4, 2, 3] Расположение: [1, 2, 3, 1, 2] Цена дома (в тысяч): [150, 200, 250, 180, 220]
Ваша задача — оценить коэффициенты (отрезок и наклон) модели линейной регрессии, которая лучше всего соответствует данным. Кроме того, вычислите значение R-квадрата, чтобы оценить качество подгонки модели.
Вот ответы на два числовых вопроса:
- Проверка гипотезы: нулевая гипотеза (H0): средняя сумма покупки между двумя кампаниями существенно не отличается. Альтернативная гипотеза (H1): средняя сумма покупки между двумя кампаниями значительно отличается.
Чтобы выполнить проверку гипотезы, мы можем использовать независимый t-критерий с двумя выборками. Статистика теста для t-теста определяется следующим образом:
t = (среднее (A) — среднее (B)) / sqrt ((var (A)/nA) + (var (B)/nB))
где среднее (A) и среднее (B) — средние значения выборки, var (A) и var (B) — дисперсии выборки, а nA и nB — размеры выборки.
Расчет тестовой статистики: t = (75–80) / sqrt ((10²/100) + (12²/120)) = -1,767.
Для уровня значимости 0,05 (доверительный интервал 95%) и двустороннего критерия критическое значение составляет приблизительно ±1,96.
Поскольку рассчитанное значение t (-1,767) не превышает критического значения ±1,96, мы не можем отвергнуть нулевую гипотезу. Таким образом, недостаточно доказательств, чтобы сделать вывод о наличии статистически значимой разницы в средней сумме покупки между двумя кампаниями.
- Линейная регрессия. Чтобы оценить коэффициенты модели линейной регрессии, мы можем использовать обычный метод наименьших квадратов (OLS). Модель может быть представлена в виде:
Цена дома = отрезок + (коэффициент1 * площадь) + (коэффициент2 * количество спален) + (коэффициент3 * расположение)
Используя данный набор обучающих данных, мы можем подобрать модель, используя методы регрессии для оценки коэффициентов.
После подгонки модели оценочные коэффициенты составляют:
- Перехват: 85,714
- Коэффициент 1 (размер): 0,1
- Коэффициент2 (Количество спален): 10
- Коэффициент 3 (местоположение): -20
Чтобы оценить качество подгонки модели, мы можем рассчитать значение R-квадрата. Значение R-квадрата измеряет долю дисперсии целевой переменной (цены на жилье), которая может быть объяснена независимыми переменными (размером, количеством спален и местоположением).
В этом случае рассчитанное значение R-квадрата равно 0,931, что указывает на то, что примерно 93,1% дисперсии цен на жилье объясняется независимыми переменными в модели.
Обратите внимание, что это примерные ответы, и фактические ответы могут отличаться в зависимости от конкретных расчетов и сделанных предположений.
Теоретические вопросы
«Интервью для анализа статистики: общие вопросы и способы их решения
Два типа вопросов, задаваемых на собеседованииmedium.com»