В основном у меня есть только общий ответ, я никогда не читал исследований Монте-Карло с небольшими выборками для М-оценок.
To 1.
Во многих моделях, таких как М-оценки, RLM или обобщенные линейные модели, GLM, мы имеем только асимптотические результаты, за исключением, может быть, нескольких особых случаев. Асимптотические результаты обеспечивают условия нормального распределения оценки. Учитывая это, statsmodels по умолчанию использует нормальное распределение для всех моделей, кроме модели линейной регрессии, OLS и подобных, и хи-квадрат вместо F-распределения для тестов Вальда с совместной гипотезой.
Есть некоторые свидетельства того, что во многих случаях использование распределения t или F с соответствующим выбором степеней свободы обеспечивает лучшую аппроксимацию распределения тестовой статистики для малых выборок. Это основано на результатах Монте-Карло и, насколько мне известно, напрямую не подтверждается теорией.
В следующем выпуске и в текущей разрабатываемой версии statsmodels пользователи могут использовать для результатов распределение t и F вместо нормального распределения и распределения хи-квадрат. Значения по умолчанию остаются такими же, как и сейчас.
Есть и другие случаи, когда неясно, следует ли использовать t-распределение и какие небольшие выборочные степени свободы следует использовать. Во многих случаях statsmodels пытается следовать примеру STATA, например, в стандартных ошибках устойчивости кластера после OLS. Другим последствием является то, что иногда эквивалентные модели, которые являются частными случаями разных моделей, используют разные допущения по умолчанию для распределения как в Stata, так и в статистических моделях.
Недавно я прочитал документацию SAS для M-оценок, и SAS использует распределение хи-квадрат, то есть также нормальное предположение, для значимости оценок параметров и доверительных интервалов.
To 2.
(см. первое предложение)
Думаю, здесь применимо то же, что и для линейных моделей. Если данные сильно отличаются от нормальных, то тестовая статистика может иметь неправильное покрытие в небольших выборках. Это также может быть в случае с некоторыми надежными сэндвич-оценками ковариации. С другой стороны, если мы не используем гетероскедастичность или устойчивые к корреляции ковариационные оценки, то тесты также могут быть сильно смещены.
Для надежных методов оценки, таких как M-оценки, RLM, эффективный размер выборки также зависит от количества вставок или весов, присвоенных наблюдениям, а не только от общего количества наблюдений.
Для вашего случая я думаю, что значения z и размер выборки достаточно велики, чтобы, например, использование t-распределения не сделало бы их намного менее значимыми. Сравнение М-оценок с разными нормами и оценками по шкале обеспечило бы дополнительную проверку надежности при допущении о выбросах и при выборе робастной оценки. Еще одна перекрестная проверка: дает ли МНК с отброшенными выбросами (наблюдения с небольшими весами в оценке RLM) аналогичный ответ.
Наконец, общее предостережение: ссылки на надежные методы часто предупреждают, что мы не должны слепо использовать (отклоняющиеся) надежные методы. Использование надежных методов оценивает отношения на основе «вкладышей». Но оправдано ли наше отбрасывание или снижение веса выбросов? Или у нас есть недостающие нелинейности, недостающие переменные, смешанное распределение или разные режимы?
person
Josef
schedule
04.02.2014