Предсказание краха фирм вызывает интерес уже почти столетие и до сих пор занимает одно из первых мест среди самых актуальных тем в экономике. Целью прогнозирования финансового кризиса является разработка прогностической модели, которая сочетает в себе различные эконометрические показатели и позволяет прогнозировать финансовое состояние фирмы. Целью прогнозирования банкротства является оценка финансового состояния компании и ее будущих перспектив в контексте долгосрочной работы на рынке.

Что такое САС ЭМ?

SAS Enterprise Miner (EM) — это программный пакет для интеллектуального анализа данных и машинного обучения, разработанный SAS Institute. Это мощный инструмент для специалистов по данным и аналитиков, позволяющий создавать прогнозные модели и проводить интеллектуальный анализ больших наборов данных. С помощью SAS EM вы можете импортировать данные из различных источников, исследовать и визуализировать данные, создавать и сравнивать различные модели, а также развертывать наиболее эффективные модели для оценки новых данных. SAS EM предоставляет широкий спектр алгоритмов и методов обучения с учителем (например, деревья решений, логистическая регрессия, нейронные сети) и обучения без учителя (например, кластеризация, правила ассоциации). Он также имеет множество встроенных функций для предварительной обработки данных, выбора функций и оценки моделей, что делает его эффективной и удобной платформой для проектов по науке о данных.

SAS Enterprise Miner устарел? Почему это важно знать?

Это правда, что область науки о данных и машинного обучения постоянно развивается, и постоянно разрабатываются новые программные инструменты и платформы. Однако это не обязательно означает, что старые инструменты, такие как SAS Enterprise Miner (EM), полностью устарели или больше не актуальны. Вот несколько причин, по которым может быть важно знать SAS EM:

  1. Широко используется в промышленности: SAS EM — хорошо зарекомендовавший себя программный пакет, который широко используется во многих отраслях, включая финансы, здравоохранение и маркетинг. Знание того, как использовать SAS EM, может сделать вас ценным активом для этих организаций.
  2. Большая пользовательская база. Существует большое сообщество пользователей SAS EM, и многие ресурсы доступны в Интернете для обучения и устранения неполадок. Это может упростить поиск помощи или руководства при работе с SAS EM.
  3. Полный набор функций: SAS EM предоставляет широкий спектр инструментов и функций для предварительной обработки данных, моделирования, оценки и развертывания. Это комплексная платформа, которая может обрабатывать множество различных типов проектов по науке о данных.
  4. Масштабируемость: SAS EM предназначен для обработки больших наборов данных и может масштабироваться для удовлетворения требований сложных проектов. Это может быть особенно полезно при работе с большими данными.

Таким образом, хотя всегда важно быть в курсе последних событий в этой области, SAS Enterprise Miner (EM) по-прежнему является ценным инструментом, который широко используется и имеет полный набор функций.

Реализация: прогнозирование краха фирмы с использованием различных моделей и ансамблевых методов.

Файлы данных можно найти по адресу https://www.kaggle.com/competitions/bankruptcy-classification-project/data.

  • bankruptcy_Train.csv — обучающий набор с 64 предикторами и 1 целевой переменной.
  • bankruptcy_Test_X.csv — набор тестов с идентификатором и 64 предикторами
  • bankruptcy_sample_submission.csv — образец представления с идентификатором и прогнозируемой вероятностью банкротства фирмы.

Исследовательский анализ данных

Фильтрация и замена для улучшения данных

Важность фильтрации:

  • Фильтрация данных для удаления выбросов
  • Используется метод "Редкие значения"
    (в процентах), т. е. если значение встречается
    менее чем 0,01 процента, оно будет удалено
  • Метод фильтрации по умолчанию — стандартное отклонение от среднего

Важность замены:

  • Пределы атрибутов устанавливаются на основе стандартного отклонения от среднего
  • Вычисляются значения замены

Исходная модель

  • Данные делятся на обучение и проверку как 70%:30% соответственно.

  • На этом этапе мы выбираем подходящие модели
  • На следующем этапе мы настроим каждую модель по отдельности, чтобы добиться максимальной производительности.
  • Далее, на последнем шаге, мы собираем их вместе

Ансамбль из четырех моделей повышает валидацию ROC

Методы ансамбля — это методы машинного обучения, которые объединяют прогнозы нескольких моделей для получения более точных прогнозов. Идея методов ансамбля состоит в том, чтобы создать сильного ученика путем агрегирования прогнозов нескольких слабых учеников. Слабый ученик — это модель, которая немного лучше, чем случайное угадывание, в то время как сильный ученик — это модель, которая работает значительно лучше, чем случайное угадывание.

Существует несколько способов объединения прогнозов нескольких моделей, таких как усреднение, голосование или взвешивание. Конкретный используемый метод зависит от типа ансамбля и цели моделирования.

Кривая рабочей характеристики приемника проверки (ROC) является полезной оценочной метрикой для несбалансированных наборов данных, поскольку она чувствительна к балансу классов набора данных. В несбалансированном наборе данных класс с меньшинством экземпляров («класс меньшинства») часто представляет интерес, и важно иметь метрику, которая может точно оценить производительность модели в этом классе.

Кривая ROC отображает процент истинных положительных результатов (TPR) в сравнении с уровнем ложных положительных результатов (FPR) при различных порогах классификации. TPR — это доля положительных случаев, которые правильно классифицируются как положительные, а FPR — это доля отрицательных случаев, которые неправильно классифицируются как положительные. Площадь под кривой ROC (AUC) является мерой общей производительности классификатора. Модель с высокой AUC способна правильно классифицировать более высокую долю положительных случаев и меньшую долю отрицательных случаев.

Одним из преимуществ использования кривой ROC для оценки является то, что на нее не влияет баланс классов в наборе данных. В несбалансированном наборе данных модель, которая все время просто предсказывает класс большинства, может достичь высокой точности, но это не обязательно означает, что модель хорошо предсказывает класс меньшинства. Кривая ROC и AUC обеспечивают более точную оценку производительности модели с учетом TPR и FPR для обоих классов.

Таким образом, кривая ROC проверки и AUC являются полезными показателями оценки для несбалансированных наборов данных, поскольку они чувствительны к балансу классов набора данных и обеспечивают более тонкую оценку производительности модели.

Ключевые выводы

→ Gradient Boost, Neural Network, Logistic Regression и HP Neural использовались для индивидуальной настройки, чтобы обеспечить спуск ROC Score для проверочных данных.

→ Кроме того, когда все четыре модели объединены вместе, они обеспечивают более высокий ROC 93,8%.

→ Метод ансамбля усреднения вероятностей событий объединил бы слабых учеников и максимизировал бы их прогностическую силу

Окончательная модель

Окончательная модель объединяет ранее созданные модели

  • Создание 5 ансамблей по ранее созданным моделям
  • Однако важное изменение заключается в том, что начальное значение для каждой модели изменяется, чтобы можно было избежать переобучения обучающих данных.
  • Этот метод будет эффективен на тестовых данных, поскольку он объединяет несколько слабых и сильных учеников и максимизирует прогностическую силу.

Оценка окончательной модели

Проверка ROC составляет 95,2 %, которая основана на совокупности нескольких учащихся с разными начальными значениями, чтобы избежать переобучения.

• Из общедоступной и частной таблицы лидеров мы видим, что эта модель обеспечивает лучший ROC, поскольку она не соответствует данным обучения.

Уроки:

→ В случае несбалансированных данных нам нужно смотреть на ROC как на критерий производительности.

→ Рандомизация повышает производительность тестовых данных

→ Neural Network и Gradient Boosts — две сильные модели для случаев, когда данные имеют взаимодействие и дисбаланс

→ Жадные алгоритмы, такие как дерево решений и т. Д., В таких случаях не работали.

Окончательный рейтинг в частной таблице лидеров

Рейтинг в публичной таблице лидеров был 13-м, а рейтинг в итоговой частной таблице лидеров стал 3-м среди 45 команд из программы MS BAIM Университета Пердью.