Анализ дискретного выбора с помощью Python. Как правило, существует два формата представления данных регрессии:
- длинный формат
- широкий формат
В длинном формате есть строка для каждого потенциального варианта, а также столбец Y со значением 0 или 1 в зависимости от выбора. Широкий формат имеет только одну строку на человека (респондента опроса), и Y охватывает все выбранные функции, а X охватывает все альтернативы продукта.
Пример длинный
person answer Y ~ x1 x2
1 1 0 green large
1 1 1 red large
1 2 1 green small
...
Пример широкий
y1 y2 ~ x11 x12 x21 x22
green large green large red large
green small green small red small
...
- Правильно ли мое описание?
- использует ли statsmodel mlogit описанный здесь широкий формат?