Кластеризация американских университетов на основе академического образования и окружения

Введение

В Соединенных Штатах перед миллионами старшеклассников стоит задача подачи документов в университеты, и они могут столкнуться с трудностями, пытаясь выяснить, какие университеты им подходят. С тысячами университетов на выбор трудно найти подходящую пару. Поскольку за каждую заявку также взимается плата, многим студентам также необходимо ограничить количество подаваемых ими заявок, а это означает, что их выбор приложений должен быть правильным для них.

Чтобы сузить свой выбор, студенты могут захотеть узнать о доступных объектах рядом с университетами и академическом профиле университетов. Эта информация может помочь им найти хорошее академическое и экологическое соответствие.

Используя API Foursquare и другие источники данных для кластеризации университетов, этот проект стремится помочь старшеклассникам и другим будущим студентам университетов находить университеты, которые имеют сильное сходство на основе их соответствующих окружающих мест, а также их академических характеристик. Если студенты смогут найти подходящую пару как в академических кругах, так и в расположении университета, они, скорее всего, будут лучше и счастливее учиться в колледже.

Вместе эти кластеры позволят старшеклассникам и другим абитуриентам находить подходящие для себя колледжи как по местонахождению, так и по академическому статусу.

Данные

Центр данных IPEDS, https://nces.ed.gov/ipeds/use-the-data, предоставляет более 250 функций для более чем 7000 университетов в формате CSV. Чтобы сосредоточиться на релевантной информации, я удалил более 200 функций и исключил все университеты с отсутствующей ключевой информацией. Я сохранил полученные данные в кадре данных Python pandas. Остальными характеристиками являются название университета, широта, долгота, адрес, город, средние баллы SAT по математике и чтению 25-го и 75-го процентилей, средние совокупные баллы ACT 25-го и 75-го процентиля, средняя чистая стоимость посещения, общее количество абитуриентов, общее количество поступающих в бакалавриат, и соотношение студентов и преподавателей. Всего в обработанном кадре данных 1173 университета.

Другим источником данных, который будет использоваться, является API Foursquare, который позволяет разработчикам вводить поисковые запросы или информацию о местоположении, чтобы находить близлежащие достопримечательности. Характеристики широты и долготы университетов из фрейма данных будут переданы в API для получения информации в формате JSON об окрестностях университетов, включая близлежащие места. Это потребует использования ключевого слова «исследовать», чтобы получить заранее определенное количество мест в заранее определенном радиусе университетов.

Вместе эти источники данных позволят сформировать два типа кластеров для характеристики каждого университета: один с академическими характеристиками, полученными из набора данных IPEDS Data Center, а другой с характеристиками окружающих мест, которые получены из API Foursquare. .

Методология

Чтобы предоставить более значимую академическую статистику, чем общее количество поступающих в бакалавриат и зачисленных, я создал новую характеристику, уровень приема, разделив количество принятых студентов для каждого университета на количество студентов, подавших заявки в каждый университет. Уровень приема является показателем избирательности университета, и более низкий уровень приема обычно соответствует более высокому академическому рейтингу университета.

Рисунок 1

Рисунок 2

Рисунок 3

Другие атрибуты также соответствуют рейтингам университетов. Одним из них являются стандартизированные результаты тестов, в том числе обычно используемые SAT и ACT, которые проверяют уровень знаний учащихся по математике, чтению, письму и естественным наукам. Как показано на рисунках 1, 2 и 3, оценки SAT и ACT 75-го процентиля явно имеют отрицательную корреляцию с уровнем приема. Другим является соотношение студентов и преподавателей, которое указывает на размер классов. В ведущих университетах обычно желательно более низкое соотношение студентов и преподавателей.

Поскольку уровень приема, результаты тестов поступающих студентов и соотношение студентов и преподавателей обычно используются для измерения избирательности и престижа университетов, я сначала использовал эти атрибуты из фрейма данных для кластеризации университетов на основе ученых. Для этого я использовал алгоритм кластеризации K-Means. Чтобы найти оптимальное значение K, я применил метод локтя, нанеся значения K в зависимости от их соответствующей суммы квадратов внутри кластера или инерции.

Рисунок 4

Поскольку скорость снижения суммы квадратов внутри кластера значительно уменьшилась при K = 4, я использовал 4 кластера для академического профиля университетов.

Рисунок 5

Рисунок 6

Рисунок 7

На рис. 5 показаны некластеризованные университеты, а на рис. 6 и 7 — университеты, сгруппированные по ученым.

Затем я сгруппировал университеты по категориям ближайших к ним мест. Для этого я использовал API Foursquare, чтобы получить 50 лучших мест в пределах 8000 метров (~ 5 миль) от каждого университета. Категории мест проведения были представлены бинарно и объединены для каждого университета. Затем для каждого университета была рассчитана средняя частота для каждой категории мест проведения. Например, в колледже Хартвик в радиусе 5 миль кафе в 3 раза больше, чем закусочных с бургерами и барбекю.

Рис. 8

Кластеризация K-средних была выполнена для кластеризации университетов на основе частоты каждой категории мест проведения, и снова был использован метод локтя для определения оптимального значения K. В конечном итоге было сформировано 5 кластеров мест проведения.

Рисунок 9

Рисунок 10

Результаты

Чтобы назначить ключевые имена для академических кластеров, я сгруппировал фрейм данных по академическим кластерам и проверил среднее значение определенных столбцов.

Рисунок 11

На рис. 11 видно, что университеты в академическом кластере 3 имеют гораздо более низкий уровень приема и более высокие результаты тестов, чем университеты в академических кластерах 0, 1 и 2, а также более низкое соотношение числа студентов и преподавателей. Это соответствует атрибутам университетов с более высоким рейтингом. Остальные три кластера похожи друг на друга с точки зрения более высоких показателей зачисления и соотношения студентов и преподавателей, но они различаются баллами по стандартизированным тестам. Университеты в академическом кластере 0 имеют заметно более высокие баллы SAT и ACT 25-го и 75-го процентилей, чем университеты в академических кластерах 1 и 2, но их средний уровень приема ниже, чем в академическом кластере 1, и выше, чем в академическом кластере 2. Университеты в академическом кластере кластер 1 имеет самый высокий уровень приема и вторые по величине результаты тестов, а университеты академического кластера 2 имеют более низкий уровень приема и самые низкие результаты тестов. На рис. 12 показаны имена академических профилей, присвоенные каждому академическому кластеру.

Рисунок 12

Чтобы определить профили мест проведения, 8 лучших категорий мест проведения на основе средней частоты были отсортированы для каждого университета и изучены для каждого кластера. Например:

Рисунок 13

Чтобы найти наиболее распространенные категории мест в кластере, все значения в восьми лучших категориях данного кластера для всех объединенных университетов были объединены в список, и для каждого кластера был рассчитан тип категории места. Режим для кластера объектов 0 был «Парк», режим для кластера объектов 1 — «Кофейня», режим для кластера объектов 2 — «Ресторан быстрого питания», режим для кластера объектов 3 — «Ресторан мексиканской кухни». режим для кластера заведений 4 был «Пиццерия». В кластере объектов 3 также было множество других типов ресторанов, таких как итальянские, китайские и индийские, а в кластере объектов 4 было большое количество пекарен и магазинов мороженого. Кроме того, в кластере объектов 1 был гораздо больший процент объединенных кофеен и кафе, чем в кластере объектов 0, а в кластере объектов 0 был гораздо больший процент троп, экспонатов зоопарков, зоопарков и троп вместе взятых, чем в кластере объектов 1. Следовательно, в кластере объектов 1 профили на рис. 14 были присвоены кластерам объектов.

Рисунок 14

Обсуждение

Была изучена взаимосвязь между академическим кластером и кластером площадок. Хотя между ними нет очевидной связи, были обнаружены некоторые интересные связи. 39,4% университетов в академическом кластере 3 имеют профиль места проведения «Аттракционы на открытом воздухе», а 37,9% имеют профиль места проведения «Кофе и повседневная жизнь». 27,3% университетов в академическом кластере 2 имеют профиль заведения «Разнообразие кухонь», а 24,8% имеют профиль заведения «Пицца и десерт». 31,7% университетов в академическом кластере 1 имеют профиль заведения «Кофе и повседневная жизнь», а 26,7% имеют профиль заведения «Разнообразие кухонь». Кроме того, 41,9% университетов в академическом кластере 0 имеют профиль заведения «Кофе и повседневная жизнь».

Наблюдалась и обратная зависимость. 39,3% университетов с кластером мест проведения 4 имеют академический профиль «Менее избирательный/самый низкий балл», а 38,8% имеют академический профиль «Наименее избирательный/низкий балл». 43,8% университетов с кластером мест проведения 3 имеют академический профиль «Наименее избирательный/низкий балл», а 30,2% имеют академический профиль «Менее избирательный/самый низкий балл». 54,9% университетов с кластером мест проведения 2 имеют академический профиль «Менее избирательный/самый низкий балл», а 36,3% имеют академический профиль «Наименее избирательный/низкий балл». 39,8% университетов с кластером мест проведения 1 имеют академический профиль «Наименее избирательный/низкий балл», а 30,8% имеют академический профиль «Менее избирательный/средний балл». 34,5% университетов с кластером мест проведения 0 имеют академический профиль «Наименее избирательный/низкий балл», а 26,5% имеют академический профиль «Менее избирательный/средний балл».

Некоторая значимость этих процентных показателей теряется, если учесть, что гораздо больше университетов имеют академические кластеры 0, 1 и 3 (238, 367 и 281 соответственно) по сравнению с академическими кластерами 2 и 4 (91 и 196). , соответственно).

Точно так же гораздо больше университетов с кластерами объектов 0, 1 и 2 (270, 460 и 311 соответственно) по сравнению с кластерами объектов 3 и 4 (132 и 270 соответственно).

По логике, профиль места проведения и академический профиль не должны иметь существенной связи друг с другом, поскольку они в значительной степени являются независимыми атрибутами университета. Профиль места проведения больше связан с местными властями города и местными предприятиями, а академический профиль больше связан с успеваемостью студентов университета и доступными им ресурсами.

Следовательно, вместо того, чтобы интерпретировать эти два фактора как причины друг друга, лучше всего использовать сформированные кластеры для сужения выбора университета в качестве комбинированных критериев. Например, кто-то может захотеть поступить в университет с высокой степенью избирательности, где есть множество достопримечательностей. Существует большая вероятность того, что совпадение может быть найдено путем поиска университетов в академическом кластере 3 и кластере мест проведения 0.

Вывод

В этом анализе я сгруппировал 1173 американских университета, основываясь как на академических характеристиках их студентов и ресурсов, так и на их ближайших местах. Используя результаты стандартизированных тестов, соотношение числа студентов и преподавателей и уровень зачисления в качестве индикаторов академического рейтинга университета, я использовал алгоритм K-средних для распределения университетов по 4 академическим кластерам и присвоения университетам в этих кластерах академических профилей на основе их средние характеристики. С другой стороны, я использовал 50 лучших мест в радиусе 5 миль, чтобы определить наиболее часто встречающиеся категории мест для каждого университета, и использовал эту информацию в другой реализации алгоритма K-средних, чтобы сгруппировать университеты в 5 кластеров мест. Профили объектов были определены на основе режима комбинированных категорий объектов для каждого кластера. Потенциальные студенты университетов США могут извлечь выгоду из полученного набора данных, изучив университеты, которые пересекаются в их предпочтительных академических кластерах и кластерах мест проведения.

Исходные данные, окончательные данные и окончательные данные только с кластерами, а также мой код можно найти здесь:https://github.com/shaleen1/Coursera_Capstone/tree/master