Подробное и тщательное исследование цифр, стоящих за кризисом студенческой задолженности.

В статье описывается моделирование искусственного интеллекта, применяемое для лучшей интерпретации социально-экономического обоснования студенческих ссуд, которое приводит к их финансовой зависимости. Этот проект является кульминацией работы, проделанной с Omdena и ShapingEDU.

Введение в проект и ознакомление с ним

Этот проект был продолжением моего сотрудничества с командой Omdena, где я попытался сделать некоторые проницательные выводы на основе имеющихся данных, чтобы пролить свет на насущную проблему студенческих долгов. Члены команды состояли из людей из всех слоев общества, разного происхождения и опыта. Члены провели вводную встречу, чтобы ознакомиться с результатами и обсудить разделение работы, чтобы понять, на чем должны быть сосредоточены группы.

Я подал прошение об использовании группы, которая проанализировала бы социально-экономические факторы студенческих долгов, а также финансовую грамотность, чтобы понять причины, динамику и элементы, которые определяют такую ​​практику, и потенциальные методы их исправления. При наличии достаточного количества членов и заинтересованных лиц, которые продемонстрировали аналогичное стремление к достижению этих целей, была сформирована группа, и результаты были распределены с целью достижения полезных результатов. Вот некоторые из наиболее важных вопросов, на которые мы стремились ответить с помощью этого моделирования:

1. Существуют ли какие-либо конкретные дисциплины и опыт, которые больше влияют на накопление долга в течение продолжительного периода времени?

2. Как расстояние и близость больше влияют на получение работы и как экономические профили помогают найти работу в среде, где долг продолжает расти?

3. Можно ли смоделировать соотношение долга к прибыли и связать его с исходными данными в пределах разумного коэффициента ошибок, чтобы другие могли использовать его для определения профессий или рабочих мест, которые им следует занять, чтобы вовремя окупиться?

4. Влияет ли добавление дополнительных образовательных данных на ускорение процесса погашения долга, и если да, то является ли это общим для всех дисциплин?

5. Каковы последствия прекращения учебы и кандидатов с неполными учетными данными по сравнению с кандидатами с полным образованием?

Было реализовано несколько проектов, направленных на кризис студенческой задолженности, но они, как правило, дают сбой из-за предубеждений или нестандартного мышления, ограничивающего способность общественности понять, что означают данные. Этот проект уникален тем, что объединяет опыт большой группы аналитиков и исследователей.

Решенные и решенные проблемы

Хотя визуализация и графическое представление наборов данных были достигнуты на раннем этапе, много времени пришлось потратить на очистку и разложение наборов данных на соответствующие столбцы, чтобы понять, что они представляют. Мы столкнулись с еще одной проблемой, связанной с наличием несбалансированного набора данных, который был больше нацелен на студентов из США, чем на иностранных студентов, что потребовало от нас изучения других возможностей и источников. Решение для сегментации и фильтрации соответствующих столбцов и строк требовало дальнейших шагов для удаления пропущенных значений и преобразования категориальных переменных в закодированные ключи, которые система могла бы понять.

Команда и участники проекта обсудили железный список целей, которые должны были быть достигнуты к концу всего проекта, в то время как более мелкие подцели продолжали меняться со временем, чтобы соответствовать данным или соответствовать требованиям выполнимых задач. модели, которые становились вычислительно медленными.

На начальном этапе наборы данных, которые должны были использоваться для проекта, были выбраны на основе количества факторов и параметров, которые можно было кодировать и моделировать с использованием различных. Мы специально не ограничивались наборами данных с числовыми выходными данными и использовали выходные данные на основе классификации. Два основных набора данных, которые использовались в этой части проекта, изучали возможность невозврата кредитов, соотношение долга к доходам, процентные ставки и профили финансовой грамотности среди соискателей. Данные и их результаты были наконец связаны с инструментами визуализации и географическими данными, чтобы дать полезные результаты для лучших мест для выплаты долгов.

Другой важной частью проекта были социально-экономические факторы. Он был направлен на поиск информации о выпускниках из различных институтов и построение моделей для их финансовых и профессиональных результатов после выпуска. В этом наборе данных учитывались такие параметры, как местонахождение, изучаемая дисциплина, раса, экономическое положение, суммы ссуд, тип учреждения, тип степени, время, необходимое для получения первой работы после окончания учебы, и т. Д. Но, несмотря на огромное количество данных, которые у нас были, по ходу работы мы обнаружили дополнительные препятствия.

Стратегии и настройки

Стратегия построения модели и анализа данных следовала той же структуре, что и любой другой проект, касающийся больших объемов данных. Очистка и фильтрация выполнялись в основном с использованием скриптов Python, R и SQL. Все столбцы были преобразованы в числовые или закодированные столбцы для категорий. В конечном итоге это привело к еще большей проблеме из-за создания уникальных столбцов для каждого учебного заведения, которое посещали студенты. Обработка с помощью более простых моделей, таких как PCA, не дала никаких результатов, которые мы рассмотрим ниже. Некоторые члены группы исследовали связь между финансовой грамотностью и выплатой долга, в то время как другая группа сосредоточилась на обнаружении связи между социально-экономическими факторами и долгом и профилями доходов.

Используя функцию важности признаков алгоритмов классификации и регрессии, можно было установить, какой из столбцов играет большую роль в прогнозировании выходных данных. Это будет дополнительно подтверждено с помощью графиков корреляционных матриц, которые помогут отсеять слабо связанные параметры.

После очистки и сегментации данных было проведено тщательное сравнение моделей. Впервые были применены традиционные модели, такие как наивный байесовский анализ и логистическая регрессия. Тесты для таких симуляций проводились для различных перекрестных проверок и функций активации. Также были изучены методы уменьшения размерности с использованием алгоритмов PCA и небольших графиков t-SNE, чтобы лучше понять взаимосвязь между входами и выходами. Это заставило команду зайти в тупик, чтобы понять природу столбцов и насколько сбалансированы / несбалансированы наборы данных. С некоторой полировкой столбцов и строк был достигнут более последовательный подход к тому, чтобы сделать данные более приемлемыми для обработки.

В сочетании с проектированием функций это также помогло отфильтровать столбцы, которые иначе было бы сложно кодировать или охарактеризовать и которые никак не повлияли бы на обработку.

Решение проблем - тестирование и анализ данных

Социально-экономическое положение студентов играет большую роль в определении состояния их доходов и долгового портфеля. Команда изучила конкретные факторы, которые могут повлиять на эти профили, и выяснила, есть ли какие-либо неизвестные переменные, которые необходимо учитывать, которые ранее не обсуждались.

Информация для профилей студенческого долга была взята из баз данных выпускников колледжей, data.gov, Министерства образования США, обследований результатов послешкольной занятости (PSEO), оценочных листов колледжей, PSID (панельное исследование динамики доходов) и Национального лонгитюдного исследования в области образования 1988 г. ( NELS88). Команда также была сосредоточена на создании более совершенных моделей прогнозирования, чтобы помочь определить финансовые результаты для студентов в зависимости от их учебного заведения, дисциплины, местоположения и других фоновых переменных. Сравнительные тесты дали результаты, которые нам нужно было знать, где мы находимся с точки зрения извлечения основных идей из данных. В то время как традиционные методы не смогли создать точных моделей взаимосвязи между социально-экономическими условиями и отношениями долга к доходам, ансамблевые методы оказались гораздо более полезными.

В то же время графики важности функций с использованием PCA и методов ансамбля, таких как XGBoosting, позволили получить некоторые полезные визуализации и таблицы. После обрезки наборов данных с помощью этих общих знаний мы перешли к использованию расширенных методов, таких как Adaboost, для достижения лучших результатов, о чем свидетельствуют графики и соответствующие им средние абсолютные ошибки, среднеквадратичные ошибки и средние оценки. Тесты и моделирование также проводились для различных складок перекрестной проверки. Результат позволил нам лучше понять, каковы основные факторы, которые могут сдерживать или приписывать финансовую и интеллектуальную отдачу учащегося.

Исследования по заявкам на получение ссуды и мнения студентов

Определенное количество времени было также потрачено на то, чтобы сформировать общие мнения студентов о процедуре получения кредита и о том, какие регионы эти студенты считают лучшими для работы и решения долговых проблем. На графиках показаны лучшие города США, где выпускники могут найти работу и решить проблемы с кредитами, с учетом процентных ставок, близости работы и других факторов.

Результаты и извлеченные уроки

В ходе испытаний было получено несколько важных результатов и выводов, в том числе следующие:

  1. Студенческая задолженность - важная проблема, так же как и студентам, которым отказывают в выдаче ссуд. Большинство приложений закрываются без объяснения причин.
  2. Большинство сумм ссуд используется для вторичных целей, таких как получение лицензии, транспорт, стипендии, аренда и т. Д.

3. Близость к горячим точкам и месту работы играет жизненно важную роль в определении отношения долга к заработку для студентов всех расовых групп.

4. Что касается образовательных дисциплин, то, хотя оплата долга в течение 10 лет остается постоянной для студентов из крупных учебных заведений, существуют определенные выбросы для тех, кто меняет карьеру или образование.

5. Добавление большего количества образовательных данных может иметь свои преимущества для улучшения профилей, но дает низкие результаты в исследованиях важности характеристик.

6. Языковая и финансовая грамотность играют огромную роль в влиянии на текучесть новых студентов и иммигрантов.

7. Студенты-должники в основном используют веб-службы для приложений и поступают из средних и малых учебных заведений.

8 В частных некоммерческих организациях есть студенты, которые в среднем зарабатывают выше, чем их сверстники.

9. Финансовая грамотность и язык являются лучшими предикторами отношения долга к доходам даже для периодов более 15 лет.

10. Иммигрантское население может служить средством контроля для изучения социально-экономического воздействия на доходы и долг.

11. Большинство алгоритмов, используемых для прогнозирования отношения долга к прибыли на основе таких факторов, как местоположение, код колледжа и профессия, давали чрезвычайно низкую точность.

12. Для разбивки размерностей необходимы дальнейшие исследования.

Выводы на будущее

Результаты и модели, разработанные в результате этого проекта, находят свое применение в ряде различных областей, помимо образования и развития учащихся в целом.

Модели, предназначенные для прогнозирования отношения долга к заработку и ставок платежей, могут быть использованы, чтобы помочь учебным заведениям найти студентам нужные возможности и сообщить, есть ли у них вторичный долг. Студенты могут отслеживать развитие своих долговых портфелей с течением времени и принимать более взвешенные решения, чтобы избежать распространенных ошибок, предотвратить банкротство и устранить непредвиденные обстоятельства, вызванные финансовым кризисом. Инструмент для политиков и социальных опекунов, позволяющий создавать более совершенные финансовые инструменты, которые помогают вытолкнуть больше студентов из цикла долгов и обеспечить реальную выплату платежей, помогая студентам не попадать в частые ловушки дохода.

Средство повышения интереса и лоббирования поддержки дисциплин, которые серьезно нуждаются в капитальном ремонте и переделке системы обучения из-за большого количества студентов с большими суммами долгов. В разделе результатов и аналитических данных обсуждаются некоторые примеры, полученные на основе данных. Метод проверки того, достигают ли программы финансовой грамотности своих целей, обучая учащихся принимать разумные экономические решения, и необходимы ли более строгие меры, чтобы помочь учащимся понять свое финансовое положение.

Мой опыт работы с командой Omdena подогрел мой интерес к использованию моих навыков в таких совместных проектах для получения впечатляющих результатов, которые отлично смотрятся не только на экранах, но и в обществе. Выражаю благодарность Омдене и команде за их упорную работу над решением очередной неотложной задачи.

Чтобы присоединиться к глобальному сообществу разработчиков изменений Omdena, нажмите здесь.

Мы также находимся в Facebook, LinkedIn и Twitter.