Почему мы должны знать о наших данных

Работа с эндогенным типом I

Использование примера продавца мороженого для объяснения эндогенности типа I

Здесь мы обсудили значение эндогенности на примерах, несколько возможных источников эндогенности и почему это важно. В этой части основное внимание уделяется примеру продавца мороженого, чтобы глубже понять, почему мы должны быть осторожны с эндогенностью. Модель линейной регрессии определяется следующим образом:

Sales_i = alpha + beta Price_i + error_i (m1)
error_i ~ N (0, var_e)

После части I Price_i является эндогенной переменной, поскольку ее можно объяснить с помощью temperature_i. Таким образом | cov (Price_i, error_i) | ›0. Пусть Price_i ~ N (p, var_p).

Рассматривая распределение Sales_i и Price_i как двумерное нормальное распределение, мы можем вывести распределение условий S ales_i | Price_i. Это стандартный вывод, и его вывод можно проверить здесь.

Как показано на рисунке слева, если мы игнорируем эндогенность:
1. мы не вычисляем истинные коэффициенты, что приводит к субоптимальности, поскольку мы вычисляем alpha ' и beta '.
2. отклонение от модели (Sales_i | Price_i) ниже фактического отклонения.
Это может дать нам ложную уверенность в том, что модель работает (подходит) хорошо.

Средство правовой защиты

  1. Прогнозируйте Price'_i с помощью Temperature_i и замените Price_i на Price'_i в m1 . Здесь Temperature_i называется инструментальной переменной (IV), а этот подход называется методом IV.
  2. Прогнозируйте Price'_i с помощью Temperature_i, найдите E_i = Price_i-Price'_i и используйте:
    Sales_i = alpha + бета Price_i + gamma E_i + error_i (m2)
    Если есть эндогенность, масса гаммы сместится от 0. Или просто | gamma | ›0 с достоверностью (статистически значимо). Этот подход называется подходом функции управления.

Эндогенность из пропущенных переменных требует знания структуры проблемы, но если она известна, это несложно. Однако подобрать подходящие капельницы очень сложно. Можно принять меры предосторожности, поскольку обнаружение слабых или неправильных капельниц приведет к худшим результатам.

Следующее утверждение является моим мнением и может быть ошибочным:

Сильно нелинейные функциональные аппроксимации Sales_i = f (Price_i), например, случайный лес / скрытые модели Маркова / глубокое обучение, могут обрабатывать эндогенность, поскольку лежащая в основе нелинейная скрытая структура направлена ​​на найти Price'_i. В факторном анализе или SVD скрытые / скрытые факторы аналогичны IV, если эта проблема обрабатывается как совместный PDF-файл Sales_i и Price_i.

Более распространенная и трудная проблема эндогенности - это одновременность. Обсуждение введения в одновременность представлено здесь.

Первоначально опубликовано на https://medium.com 2 июня 2019 г.