График квантиля-квантиля (Q-Q) - это графический инструмент, который помогает нам оценить, действительно ли набор данных произошел из некоторого теоретического распределения, такого как нормальное, экспоненциальное или равномерное распределение. Кроме того, это помогает определить, поступают ли два набора данных из групп населения с общим распределением.

Это помогает в сценарии линейной регрессии, когда у нас есть наборы данных для обучения и тестирования, полученные отдельно, а затем мы можем подтвердить с помощью графика Q-Q, что оба набора данных взяты из популяций с одинаковыми распределениями.

Несколько преимуществ:

а) Его также можно использовать с размерами выборки

б) Многие аспекты распределения, такие как сдвиги в местоположении, сдвиги в масштабе, изменения симметрии и наличие выбросов, могут быть обнаружены на этом графике.

Он используется для проверки следующих сценариев:

Если два набора данных -

i. происходят из групп населения с общим распределением

ii. имеют общее расположение и масштаб

iii. имеют похожие формы распределения

iv. похожее поведение хвоста

Интерпретация:

График q-q - это график зависимости квантилей первого набора данных от квантилей второго набора данных.

Ниже приведены возможные интерпретации двух наборов данных.

а) Подобное распределение: если все точки квантилей лежат на прямой линии или близко к ней под углом 45 градусов от оси x

б) Y-значения ‹X-значения: если y-квантили ниже x-квантилей.

c) Значения X ‹Значения Y: если x-квантили ниже, чем y-квантили.

d) Другое распределение: если все точки квантилей расположены далеко от прямой под углом 45 градусов к оси x

Python:

statsmodels.api предоставляет qqplot и qqplot_2samples для построения графика Q-Q для одного и двух разных наборов данных соответственно.