«Основные вопросы числового интервью для науки о данных: раскрытие силы статистики»

Числовые вопросы

Выборка из 50 домохозяйств имеет средний доход 75 000 долларов США и стандартное отклонение 10 000 долларов США. Каков 95% доверительный интервал для среднего дохода населения?
Компания утверждает, что их новый продукт увеличивает продажи как минимум на 10%. Выборка из 100 клиентов показала средний рост на 8% при стандартном отклонении 5%. Протестируйте утверждение на уровне значимости 5%.
Производитель утверждает, что средний вес их коробок с хлопьями составляет 500 г. Образец из 36 коробок имеет средний вес 490 г и стандартное отклонение 20 г. Протестируйте утверждение на уровне значимости 1%.
Выборка из 200 студентов имеет средний рост 170 см и стандартное отклонение 10 см. Каков 99% доверительный интервал для среднего роста населения?
Исследователь хочет проверить, есть ли разница в средней заработной плате мужчин и женщин в компании. Выборка из 50 сотрудников-мужчин имеет среднюю заработную плату в размере 80 000 долларов США и стандартное отклонение в размере 12 000 долларов США, в то время как выборка из 50 сотрудников-женщин имеет среднюю заработную плату в размере 85 000 долларов США и стандартное отклонение в размере 10 000 долларов США. Проверьте гипотезу на уровне значимости 5%.
Производитель утверждает, что их новая лампочка работает не менее 5000 часов. Выборка из 100 лампочек имеет средний срок службы 4900 часов и стандартное отклонение 200 часов. Протестируйте утверждение на уровне значимости 1%.
Компания утверждает, что среднее время ожидания на телефонной линии службы поддержки клиентов составляет менее 5 минут. Выборка из 25 звонков имеет среднее время ожидания 4,5 минуты и стандартное отклонение 1 минуту. Протестируйте утверждение на уровне значимости 10%.
Выборка из 30 студентов имеет средний балл 80 и стандартное отклонение 10 на тесте. Какова стандартная ошибка среднего?
Исследователь хочет оценить долю людей, поддерживающих того или иного политического кандидата. Каков минимальный размер выборки, необходимый для доверительного интервала 95% с погрешностью 3%?
Производитель хочет оценить средний вес определенного продукта с точностью до 5 г с достоверностью 95%. Предыдущее исследование показало стандартное отклонение 10g. Какой минимальный размер выборки необходим?
Выборка из 50 домохозяйств имеет средний доход 75 000 долларов США и стандартное отклонение 10 000 долларов США. Каков 95% доверительный интервал для среднего дохода населения?

1.Выборка из 50 домохозяйств имеет средний доход 75 000 долларов США и стандартное отклонение 10 000 долларов США. Каков 95-процентный доверительный интервал для среднего дохода населения?

Отвечать:

Чтобы вычислить 95% доверительный интервал, нам нужно использовать t-распределение с n-1 степенями свободы. Формула доверительного интервала:

CI = X̄ ± t*(s/√n)

где X̄ - среднее значение выборки, s - стандартное отклонение выборки, n - размер выборки, а t - t-показатель, соответствующий желаемому уровню достоверности и степеням свободы.

Для уровня достоверности 95% и 49 степеней свободы (n-1) t-показатель равен 2,009. Подставляя значения из вопроса, мы получаем:

CI = 75,000 ± 2.009*(10,000/√50) = (71,247, 78,753)

Таким образом, мы на 95% уверены, что средний доход населения составляет от 71 247 до 78 753 долларов.

2. Компания утверждает, что их новый продукт увеличивает продажи как минимум на 10%. Выборка из 100 клиентов показала средний рост на 8% при стандартном отклонении 5%. Протестируйте утверждение на уровне значимости 5 %.

Чтобы проверить утверждение компании на уровне значимости 5%, мы можем использовать одновыборочный t-критерий со следующими гипотезами:

Нулевая гипотеза (H0): истинное среднее увеличение продаж меньше или равно 10%. µ ≤ 10%

Альтернативная гипотеза (Ha): истинное среднее увеличение продаж превышает 10%. мк › 10%

Мы можем рассчитать тестовую статистику, используя формулу:

t = (среднее значение выборки — предполагаемое среднее значение) / (стандартное отклонение / sqrt (размер выборки))

где среднее значение выборки равно 8 %, предполагаемое среднее значение равно 10 %, стандартное отклонение равно 5 %, а размер выборки равен 100.

t = (8% — 10%) / (5% / sqrt (100))

t = -4 / 0.5

t = -8

Используя t-таблицу или статистическое программное обеспечение, мы можем найти p-значение, связанное с t-статистикой -8 и 99 степенями свободы (n-1). Значение p чрезвычайно мало, менее 0,0001.

Поскольку p-значение меньше уровня значимости 0,05, мы отклоняем нулевую гипотезу и делаем вывод, что есть доказательства, подтверждающие утверждение о том, что истинное среднее увеличение продаж превышает 10%. Таким образом, заявление компании подтверждается данными выборки.

3. Выборка из 200 студентов имеет средний рост 170 см и стандартное отклонение 10 см. Каков 99% доверительный интервал для среднего роста населения?

Для расчета доверительного интервала можно использовать формулу:

CI = x̄ ± t*(s/√n)

где CI — доверительный интервал, x̄ — среднее значение выборки, s — стандартное отклонение выборки, n — размер выборки, t — t-показатель, соответствующий желаемому уровню достоверности и степеням свободы (df = n-1 ).

Для уровня достоверности 99% и df = 199 t-показатель равен 2,626. Подставляя значения, получаем:

CI = 170 ± 2.626*(10/√200) = (168.03, 171.97)

Таким образом, мы можем быть на 99% уверены, что средний рост населения составляет от 168,03 см до 171,97 см.

Q4 Исследователь хочет проверить, есть ли разница в средней заработной плате мужчин и женщин в компании. Выборка из 50 сотрудников-мужчин имеет среднюю заработную плату в размере 80 000 долларов США и стандартное отклонение в размере 12 000 долларов США, в то время как выборка из 50 сотрудников-женщин имеет среднюю заработную плату в размере 85 000 долларов США и стандартное отклонение в размере 10 000 долларов США. Проверьте гипотезу на уровне значимости 5 %.

Чтобы проверить гипотезу, мы можем использовать двухвыборочный t-критерий. Нулевая гипотеза состоит в том, что средняя заработная плата мужчин и женщин не различается, а альтернативная гипотеза состоит в том, что разница есть.

H0: μ1 = μ2 (нет разницы в средних зарплатах) Ha: μ1 ≠ μ2 (есть разница в средних зарплатах)

Мы можем использовать формулу:

t = (x̄1 — x̄2) / (s1²/n1 + s2²/n2)⁰.5

где x̄1 и x̄2 — средние значения выборки, s1 и s2 — стандартные отклонения выборки, n1 и n2 — размеры выборки.

Подставляя значения, получаем:

t = (80000–85000) / [(12000²/50) + (10000²/50)]⁰.5 = -3.12

Используя двусторонний критерий на уровне значимости 5% с df = 98 (при условии неравных дисперсий), критическое t-значение составляет ± 1,984.

Поскольку наше рассчитанное t-значение (-3,12) находится за пределами критической области, мы можем отклонить нулевую гипотезу и сделать вывод, что существует значительная разница в средней заработной плате между мужчинами и женщинами в компании.

Q5 Производитель заявляет, что срок службы его новой лампочки составляет не менее 5000 часов. Выборка из 100 лампочек имеет средний срок службы 4900 часов и стандартное отклонение 200 часов. Протестируйте утверждение на уровне значимости 1 %.

Чтобы проверить заявление производителя на уровне значимости 1%, мы можем использовать одновыборочный t-критерий. Нулевая гипотеза (H0) состоит в том, что средний срок службы лампочек равен или превышает 5000 часов, в то время как альтернативная гипотеза (H1) состоит в том, что средний срок службы меньше 5000 часов.

Давайте выполним t-тест, используя данную информацию:

Шаг 1: Определите гипотезы: H0: μ ›= 5000 (нулевая гипотеза) H1: μ ‹ 5000 (альтернативная гипотеза)

Шаг 2: Установите уровень значимости (α): α = 0,01

Шаг 3: Вычислите статистику теста: Статистика теста для одновыборочного t-теста определяется как: t = (x̄ — μ) / (s / sqrt(n)), где: x̄ = среднее значение выборки μ = гипотетическое среднее значение генеральной совокупности s = стандартное отклонение выборки n = объем выборки

В этом случае: x̄ = 4900 часов μ = 5000 часов s = 200 часов n = 100 лампочек

t = (4900–5000) / (200 / sqrt (100)) t = -100 / (200 / 10) t = -100 / 20 t = -5

Шаг 4: Определите критическое значение: поскольку альтернативная гипотеза является односторонней (мы проверяем, меньше ли среднее значение 5000), нам нужно найти критическое значение для одностороннего t-критерия с 99 степенями свободы и уровень значимости 0,01.

Используя t-таблицу или статистическое программное обеспечение, мы находим критическое значение примерно равным -2,626.

Шаг 5: Примите решение: если тестовая статистика (t) меньше критического значения, мы отклоняем нулевую гипотезу; в противном случае мы не сможем отвергнуть нулевую гипотезу.

В этом случае t = -5, что меньше -2,626.

Поэтому мы отвергаем нулевую гипотезу.

Шаг 6. Интерпретация результата. На основе выборочных данных имеется достаточно доказательств, чтобы сделать вывод о том, что средний срок службы лампочек составляет менее 5000 часов при уровне значимости 1 %.

Вопрос 6. Компания утверждает, что среднее время ожидания на телефонной линии службы поддержки клиентов составляет менее 5 минут. Выборка из 25 звонков имеет среднее время ожидания 4,5 минуты и стандартное отклонение 1 минуту. Протестируйте утверждение на уровне значимости 10 %.

Чтобы проверить утверждение компании на уровне значимости 10%, мы можем использовать одновыборочный t-критерий. Нулевая гипотеза (H0) состоит в том, что среднее время ожидания на телефонной линии обслуживания клиентов равно или превышает 5 минут, в то время как альтернативная гипотеза (H1) состоит в том, что среднее время ожидания составляет менее 5 минут.

Давайте выполним t-тест, используя данную информацию:

Шаг 1: Определите гипотезы: H0: µ ›= 5 (нулевая гипотеза) H1: µ ‹ 5 (альтернативная гипотеза)

Шаг 2: Установите уровень значимости (α): α = 0,10

Шаг 3: Вычислите статистику теста: Статистика теста для одновыборочного t-теста определяется как: t = (x̄ — μ) / (s / sqrt(n)), где: x̄ = среднее значение выборки μ = гипотетическое среднее значение генеральной совокупности s = стандартное отклонение выборки n = объем выборки

В этом случае: x̄ = 4,5 минуты μ = 5 минут s = 1 минута n = 25 звонков

t = (4,5–5) / (1 / sqrt (25)) t = -0,5 / (1 / 5) t = -0,5 / 0,2 t = -2,5

Шаг 4: Определите критическое значение: поскольку альтернативная гипотеза является односторонней (мы проверяем, не превышает ли среднее время ожидания 5 минут), нам нужно найти критическое значение для одностороннего t-критерия с 24 градусами. свободы и уровень значимости 0,10.

Используя t-таблицу или статистическое программное обеспечение, мы находим критическое значение примерно равным -1,711.

Шаг 5: Примите решение: если тестовая статистика (t) меньше критического значения, мы отклоняем нулевую гипотезу; в противном случае мы не сможем отвергнуть нулевую гипотезу.

В этом случае t = -2,5, что меньше -1,711.

Поэтому мы отвергаем нулевую гипотезу.

Шаг 6. Интерпретация результата. На основе выборочных данных имеется достаточно доказательств, чтобы сделать вывод о том, что среднее время ожидания на телефонной линии обслуживания клиентов составляет менее 5 минут при 10-процентном уровне значимости.

Q7 Выборка из 50 домохозяйств имеет средний доход 75 000 долларов США и стандартное отклонение 10 000 долларов США. Каков 95-процентный доверительный интервал для среднего дохода населения?

Чтобы рассчитать 95% доверительный интервал для среднего дохода населения на основе выборки, мы можем использовать следующую формулу:

Доверительный интервал = выборочное среднее ± (z * (σ / sqrt (n)))

где: среднее значение выборки = 75 000 долларов США z = z-показатель для желаемого уровня достоверности (уровень достоверности 95% соответствует z = 1,96) σ = стандартное отклонение n = размер выборки

Подставляем значения: Доверительный интервал = 75 000 долларов США ± (1,96 * (10 000 долларов США / sqrt(50)))

Доверительный интервал = 75 000 долларов США ± (1,96 * (10 000 долларов США / 7,071))

Доверительный интервал = 75 000 долларов США ± (1,96 * 1414,21 доллара США)

Доверительный интервал ≈ 75 000 долларов США ± 2772,81 доллара США.

Таким образом, 95-процентный доверительный интервал для среднего дохода населения составляет приблизительно от 72 227,19 до 77 772,81 долларов США.

Q8 Производитель хочет оценить средний вес определенного продукта с точностью до 5 г с достоверностью 95 %. Предыдущее исследование показало стандартное отклонение 10g. Какой минимальный размер выборки необходим?

Чтобы рассчитать минимальный размер выборки, необходимый для оценки среднего веса с заданным уровнем достоверности и погрешностью, мы можем использовать следующую формулу:

n = (z² * σ²) / E²

где: n = размер выборки z = z-показатель для желаемого уровня достоверности (уровень достоверности 95% соответствует z = 1,96) σ = стандартное отклонение генеральной совокупности E = предел погрешности

Подставляем значения: n = (1,96² * 10²) / 5²

n ≈ 15.36

Округляя, минимальный необходимый размер выборки составляет 16.

Таким образом, производителю требуется минимальный размер выборки 16, чтобы оценить средний вес продукта в пределах 5 г с доверительной вероятностью 95%.

Вычисление условий ошибки выше

Чтобы рассчитать член ошибки (E) в формуле минимального размера выборки, мы используем желаемую погрешность.

В случае оценки среднего веса определенного продукта допустимая погрешность составляет 5 г. Эта погрешность представляет собой максимальную величину, на которую мы ожидаем, что среднее значение выборки будет отличаться от истинного среднего значения генеральной совокупности.

Таким образом, погрешность (E) равна погрешности, которая в данном случае составляет 5g.

Подставив значение члена ошибки (E = 5g) в формулу, мы можем определить минимальный размер выборки, необходимый для достижения желаемой погрешности и уровня достоверности.

НЕКОТОРЫЕ СЛОЖНЫЕ

Попробуйте сделать это сами.

Q9. Проверка гипотез: рассмотрим сценарий, в котором у вас есть набор данных о суммах покупок клиентов из двух разных маркетинговых кампаний (A и B). Цель состоит в том, чтобы определить, есть ли статистически значимая разница в средней сумме покупки между двумя кампаниями. Вам предоставляется следующая информация:

Кампания А:

Размер выборки: 100
Среднее значение выборки: 75 долларов США.
Стандартное отклонение выборки: $10

Кампания Б:

Размер выборки: 120
Среднее значение выборки: $80
Стандартное отклонение выборки: $12

Q10. Ваша задача — выполнить проверку гипотезы, чтобы определить, есть ли существенная разница в средней сумме покупки между двумя кампаниями. Сформулируйте нулевую и альтернативную гипотезы, рассчитайте статистику теста, определите критическое значение при уровне значимости 0,05 и сделайте вывод на основе результатов.

Линейная регрессия. Предположим, вам дан набор данных, который содержит информацию о ценах на жилье и различных характеристиках, таких как размер дома, количество спален и местоположение. Ваша цель — построить модель линейной регрессии для прогнозирования цен на жилье на основе заданных характеристик.

Дан обучающий набор данных со следующими характеристиками и целевой переменной:

Размер (в квадратных футах): [1000, 1500, 2000, 1200, 1800] Количество спален: [2, 3, 4, 2, 3] Расположение: [1, 2, 3, 1, 2] Цена дома (в тысяч): [150, 200, 250, 180, 220]

Ваша задача — оценить коэффициенты (отрезок и наклон) модели линейной регрессии, которая лучше всего соответствует данным. Кроме того, вычислите значение R-квадрата, чтобы оценить качество подгонки модели.

Вот ответы на два числовых вопроса:

Проверка гипотезы: нулевая гипотеза (H0): средняя сумма покупки между двумя кампаниями существенно не отличается. Альтернативная гипотеза (H1): средняя сумма покупки между двумя кампаниями значительно отличается.

Чтобы выполнить проверку гипотезы, мы можем использовать независимый t-критерий с двумя выборками. Статистика теста для t-теста определяется следующим образом:

t = (среднее (A) — среднее (B)) / sqrt ((var (A)/nA) + (var (B)/nB))

где среднее (A) и среднее (B) — средние значения выборки, var (A) и var (B) — дисперсии выборки, а nA и nB — размеры выборки.

Расчет тестовой статистики: t = (75–80) / sqrt ((10²/100) + (12²/120)) = -1,767.

Для уровня значимости 0,05 (доверительный интервал 95%) и двустороннего критерия критическое значение составляет приблизительно ±1,96.

Поскольку рассчитанное значение t (-1,767) не превышает критического значения ±1,96, мы не можем отвергнуть нулевую гипотезу. Таким образом, недостаточно доказательств, чтобы сделать вывод о наличии статистически значимой разницы в средней сумме покупки между двумя кампаниями.

Линейная регрессия. Чтобы оценить коэффициенты модели линейной регрессии, мы можем использовать обычный метод наименьших квадратов (OLS). Модель может быть представлена в виде:

Цена дома = отрезок + (коэффициент1 * площадь) + (коэффициент2 * количество спален) + (коэффициент3 * расположение)

Используя данный набор обучающих данных, мы можем подобрать модель, используя методы регрессии для оценки коэффициентов.

После подгонки модели оценочные коэффициенты составляют:

Перехват: 85,714
Коэффициент 1 (размер): 0,1
Коэффициент2 (Количество спален): 10
Коэффициент 3 (местоположение): -20

Чтобы оценить качество подгонки модели, мы можем рассчитать значение R-квадрата. Значение R-квадрата измеряет долю дисперсии целевой переменной (цены на жилье), которая может быть объяснена независимыми переменными (размером, количеством спален и местоположением).

В этом случае рассчитанное значение R-квадрата равно 0,931, что указывает на то, что примерно 93,1% дисперсии цен на жилье объясняется независимыми переменными в модели.

Обратите внимание, что это примерные ответы, и фактические ответы могут отличаться в зависимости от конкретных расчетов и сделанных предположений.

Теоретические вопросы

«Интервью для анализа статистики: общие вопросы и способы их решения
Два типа вопросов, задаваемых на собеседованииmedium.com»