Посмотрите, в какой степени финансовые ресурсы могут повлиять на результаты стандартизированных тестов в Калифорнии.

Прочитав статью Хорхе Кастаньона о Расшифровке поступления в колледж, я решил взглянуть на то, как финансовые ресурсы, в частности, могут повлиять на результаты стандартизированных тестов в Калифорнии. Мое первоначальное предположение заключалось в том, что студенты из более обеспеченных районов, вероятно, в целом лучше справляются со стандартными тестами, однако мне было искренне любопытно посмотреть, подтвердят ли какие-либо общедоступные данные это предположение или они откроют что-то совершенно другое. Если наука о данных и научила меня чему-то, так это тому, что мое первоначальное, казалось бы, вероятное предположение о том, как все работает, на самом деле иногда ошибочно, и поэтому я решил найти некоторые ответы.

Данные

Поскольку у меня не было доступа к собственному капиталу каждого, я решил, что еще одним хорошим показателем финансовых ресурсов будет жилье. Люди, живущие в домах за миллион долларов, обычно намного более обеспечены, чем люди, живущие в домах за сто тысяч долларов. Я получил данные о стоимости дома от Zillow Research, которые доступны для всеобщего ознакомления здесь.

Стандартные тесты, такие как SAT, конечно, не являются лучшим показателем интеллекта, но дают хороший общий показатель уровня образования. Я получил данные SAT для Калифорнии из Data World, которые также доступны для общего пользования здесь.

Вооружившись этими двумя наборами данных, я был уверен, что у меня достаточно, чтобы раскрыть взаимосвязь между финансовыми ресурсами и образованием в Калифорнии.

Метод

Первое, что мне нужно было сделать, это очистить и преобразовать данные, чтобы сделать их более полезными. Это довольно распространенный шаг в проектах по науке о данных, так как данные почти никогда не находятся в идеальном состоянии для вашего конкретного случая использования сразу же. Это также обычно значительно упрощает объединение двух наборов данных в каком-либо столбце, что я затем сделал в County. Объединенный набор данных содержал округ, количество учащихся 12-го класса (Enroll12), процент учащихся, фактически сдавших тест (PercentTesting), индекс ценности дома zillow (ZHVI) и средний общий балл (ATS), агрегированные по округам. Создав этот новый набор данных, я был готов начать генерировать некоторые ответы!

Я начал с создания корреляционной матрицы Пирсона, чтобы увидеть, какие отношения имеют каждый столбец с другими. Это принесло интересные плоды. Как и предполагалось, сила ассоциации между ZHVI и САР была большой. Это также выявило связь между ZHVI и PercentTesting, которая на удивление даже сильнее, чем связь между ZHVI и ATS. Я дам вам подумать, почему это могло быть. 😉

Затем я использовал данные для обучения регрессора случайного леса, который принимает Enroll12, PercentTesting и ZHVI и выдает предсказанный ATS. Я получил модель со среднеквадратичной ошибкой 767,69 и оценкой r2 0,91 в выборочных данных. Чтобы увидеть, какие функции больше всего повлияли на прогнозы, я посмотрел на важность их перестановки, которая показала, что ZHVI на сегодняшний день является самым большим фактором влияния. Затем я создал частичные графики зависимости для каждой функции, чтобы дополнительно изучить, как каждая функция влияет на прогнозы, которыми я поделюсь с вами ниже.

Для тех из вас, кто не знаком с графиками частичных зависимостей, они представляют собой быстрый и простой способ визуализировать степень, в которой каждая функция влияет на прогнозы. Это невероятно полезно, поскольку определенные функции могут иметь огромное влияние на прогнозы, но только до определенного момента и могут не иметь большого влияния после этого порога.

По оси Y показано, насколько каждая функция увеличивает или уменьшает прогнозируемый ATS, а по оси X - функция.

Что мне показалось наиболее интересным в трех сюжетах, так это форма последнего. По мере того как процент учащихся, проходящих тест, увеличивается, прогнозируемый ATS уменьшается, затем увеличивается, а затем снова уменьшается.

Наконец, чтобы проверить, как модель работает на данных вне выборки, я использовал ее для прогнозирования ATS данных SAT за предыдущие годы и получил среднеквадратичную ошибку 1812,11 и оценку r2 0,78.

Резюме

Похоже, что студенты из более зажиточных районов Калифорнии в целом лучше справляются с тестом SAT, однако я считаю, что финансовые ресурсы - это только одна особенность в гораздо большем наборе функций (которые, к сожалению, в нашем распоряжении нет) это можно было бы использовать для более точного определения того, что ученик, скорее всего, наберет в стандартизированном тесте, таком как SAT.

Особая благодарность Хорхе Кастаньону за то, что вдохновил меня на написание этой статьи.

Кристиан Л. Джонсон

Чрезмерно рьяный аналитик данных