Применение двоичной классификации методом наименьших квадратов к данным MNIST

Сначала я создал обучающий и тестовый набор данных одинакового размера из исходного набора данных MNIST. Отсюда я выбрал цифру (т. е. k = 3) и преобразовал k меток в целевой переменной в «+1», а не-k меток в «-1». Затем был реализован метод наименьших квадратов для нахождения бета-коэффициентов и классификации меток с использованием знаковой функции. Поскольку каждый экземпляр данных MNIST состоит из 28x28 пикселей (т. е. 784 признаков), матрица бета-коэффициентов будет иметь те же размеры. Поэтому я отобразил его как 2-D изображение. Изображение Беты на следующем рисунке:

Я случайным образом выбрал несколько изображений из тестовых данных и запустил модель, чтобы предсказать ее метку. На следующих рисунках приведены скриншоты случайно выбранных изображений и соответствующих предсказанных меток («1» или «-1») по модели наименьших квадратов. Как показано на рисунке, модель правильно предсказала «-1» для изображения цифры 9 и предсказала «1» для изображения цифры 3.

Показатели точности и матрицы путаницы для цифры k = 3

Я запустил модель как на тренировочном, так и на тестовом наборах и вычислил как матрицу путаницы, так и показатель точности. На следующих рисунках показаны метрики оценки для предсказания цифры k (т. е. k = 3) с использованием метода наименьших квадратов.

Результат метрик оценки показывает, что модель может отличить цифру k=3 от всех других цифр с общей оценкой точности 96% как для обучающих, так и для тестовых изображений. Поскольку рукописные цифры были поровну разделены на обучающий и тестовый наборы, в каждом наборе было 35 000 экземпляров. Матрица путаницы тестовых данных подтверждает, что модель правильно предсказывает более 31 000 изображений, не помеченных цифрой k, и более 2200 изображений, помеченных цифрой k.

Показатели точности и матрицы путаницы для всех цифр (k=1,2,3,…,9)

Затем бинарная классификация методом наименьших квадратов была повторена для всех остальных цифр. Наивысшая оценка точности была достигнута для предсказания цифры = 0 и цифры = 1 с точностью более 98%. Результаты показывают, что модель имеет гораздо более низкую точность для цифр = 9 и цифра = 5 с показателями точности 94,4% и 94,5% соответственно. Было обнаружено, что средние показатели точности предсказания одной цифры по сравнению со всеми другими цифрами составляют 96,3%.

Диагностические графики

Остатки против подобранных значений

Я начертил остатки модели (разница между фактическим значением и прогнозируемым) в сравнении с прогнозируемыми значениями и представил результат на следующем рисунке. В гомоскедастической линейной регрессии с нормально распределенными ошибками остатки и подобранные значения должны быть некоррелированы, тогда как в моем случае существует зависимость между остатками и прогнозируемыми значениями, что предполагает гетероскедастичность.

Нормальный квантильный график

График квантиль-квантиль (Q-Q) — это визуальный метод, позволяющий определить, потенциально ли данные поступают из некоторого теоретического распределения, такого как нормальное распределение. Я построил стандартизированные квантили остатков по отношению к теоретическим квантилям. Если оба набора квантилей исходят из одного и того же распределения, можно увидеть прямую линию, проходящую через точки данных, но на следующем нормальном графике Q-Q видно, что предположение о нормальных остатках нарушается.

Остатки против кредитного плеча

Визуализация остатков и кредитного плеча — это диагностический график, который помогает определить важные точки в регрессионной модели. Каждая запись из набора данных представлена ​​​​в виде одной точки на графике. Точка считается влиятельной, если ее исключение вызывает значительные изменения в подобранной регрессии. Кредитное плечо в основном измеряет степень, в которой коэффициенты регрессии изменились бы, если бы конкретное наблюдение было удалено из данных (т.е. высокое кредитное плечо означает более сильное влияние). Чтобы интерпретировать график зависимости остатков от кредитного плеча, к графику было добавлено расстояние Кука. Когда точка данных выпадала за пределы линии расстояний Кука, это считалось важным наблюдением.

График масштаба-местоположения

График «Масштаб-местоположение» показывает квадратный корень из стандартизированных остатков по оси Y и подобранные значения регрессии по оси X.

На следующем графике «Масштаб-местоположение» видно, что красная линия не горизонтальна, что означает, что предположение о гомоскедастичности для регрессионной модели не выполняется. Кроме того, видно, что среди невязок есть закономерность, что означает, что разброс невязок вокруг красной линии не является случайным и меняется в зависимости от подобранных значений.

Метод обратного выбора для уменьшения количества функций

Уменьшите количество параметров в 𝛽, используя методы обратного выбора, и отобразите 𝛽 для сокращенной модели.

Для устранения обратных признаков я начал итерации, запустив модель наименьших квадратов, содержащую все n признаков (n = 784). На каждой итерации я вычислял P-значение для всех коэффициентов и отбрасывал признаки с самым высоким P-значением. Затем я повторно запустил модель OLS с n-1 функциями. Процесс продолжался до тех пор, пока все коэффициенты не стали значимыми с доверительной вероятностью 95%. Метод обратного выбора на обучающем наборе MNIST привел к сокращению количества признаков до 114. На следующих этапах я повторно запустил модель МНК, используя уменьшенные признаки, и представил обновленные коэффициенты и метрики оценки.

Результаты регрессии (матрица точности и путаницы) после сокращения признаков

Как упоминалось на предыдущем шаге, я запустил метод наименьших квадратов, используя только выбранные функции (из метода обратного выбора) и получил бета-коэффициенты, оценки точности и матрицы путаницы как для обучающих, так и для тестовых наборов. Результаты можно увидеть на следующих рисунках. Поскольку количество коэффициентов сократилось до 114, их уже нельзя представить как изображение исходного разрешения (28x28 пикселей).

Классификация цифр с использованием логистической регрессии

Вычисление матрицы точности и путаницы для всех этикеток

Следуя модели OLS, я использовал модель логистической регрессии, чтобы увидеть, насколько похожими могут быть результаты. Я провел регрессию по всем цифрам (0,1,2,…,9) и вычислил матрицу путаницы.

Диагональ следующей матрицы путаницы представляет собой количество изображений, которые были точно предсказаны для каждой цифры, а остальные — это количество изображений, которые были ошибочно помечены моделью. Например, если посмотреть на цифру 2, она будет правильно предсказана 2930 раз, но будет ложно помечена как цифра ноль 6 раз, а цифра один 9 раз.

Наибольшее количество точных предсказаний было для цифры 1, поэтому можно с уверенностью сказать, что модель лучше предсказывает цифру 1, чем другие цифры, и слабее всего предсказывает цифру 5. В целом, она по-прежнему хороша для точного предсказания всех цифр. .

Вычисление точности для пары цифр на обучающих и тестовых данных

Я запустил модель логистической регрессии для каждой пары в цикле, чтобы модель предсказывала цифру против каждой цифры, и добавил каждый показатель точности в двумерную матрицу.

Оценки точности обучения были добавлены к верхнему треугольнику матрицы, а оценки точности тестирования — к нижнему.

Полезность этой матрицы заключается в том, что можно легко получить доступ к показателю точности модели для каждых двух цифр и найти пары, для которых точность модели выше или ниже. Глядя на результаты, можно подтвердить, что точность модели ниже для различения 8 против 5 по сравнению с другими парами.

Также интересно, что для некоторых пар, таких как (1,0), (1,4), (1,6) и (7,6), логистическая регрессия дает точность более 99,8%.