Значения SHAP для названия должности, местоположения и т. д.

В этой статье я проанализировал набор данных, который содержит подробную информацию о оценках базовых окладов 2700 в домене Australian Tech, взятых в течение августа и декабря 2022 года с веб-сайта Glassdoor. Этот набор данных общедоступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.

Шаг 1 — предварительная обработка данных

Здесь предварительная обработка данных состоит из следующих шагов:

  • объединение наборов данных, полученных в августе и декабре 2022 г.;
  • преобразование метки (базовая заработная плата) в тыс. австралийских долларов в год;
  • исключая 1% от самой высокой и 1% от самой низкой зарплаты;
  • группировка столбцов в более крупные ячейки;
  • кодирование редких категориальных переменныхНазвание должности, Место работы, Компания, Размер компании, Тип компании, Сектор компании, Отрасль компании, Доход компании и Штат) без столбцов более 60 различных категорий в каждом столбце и не менее 20 образцов данных в каждой категории;
  • наконец, удаление неиспользуемых столбцов.

В результате мы получили очищенный набор данных, содержащий около 1000 записей с известной расчетной базовой зарплатой (от 60 до 182 тыс. австралийских долларов в год).

Шаг 2 — настройка модели машинного обучения для прогнозирования годовой базовой заработной платы

Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 9,5 тыс. австралийских долларов в год, что является значительным улучшением по сравнению со среднеквадратичной ошибкой базовой модели, составляющей около 23,7 тыс. австралийских долларов в год. (при одинаковой зарплате около 107 тысяч австралийских долларов в год за каждую запись).

Шаг 3 — объяснение полученной модели машинного обучения.

Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицами значения SHAP являются kAUD/год.

Во-первых, мы изучаем диапазон значений SHAP для каждой интересующей нас функции:

Здесь наиболее важными характеристиками, определяющими оценочную базовую заработную плату специалистов по обработке данных, являются название должности, местоположение и основание. век компании.

Теперь ищите более подробную информацию о каждой функции.

Что касается названий должностей, мы видим, что наибольшая расчетная базовая зарплата связана с специалистами по данным, за которыми следуют инженеры данных. и специалисты по данным:

Что касается местонахождения работы, мы видим, что самые высокие оценочные базовые оклады связаны с Сиднеем (см. фото выше), за которым следует >Паддингтон, Северный берег и Мельбурн:

Что касается компаний, то наивысшие оценочные базовые оклады связаны с MALTEM Australia, Interpro People, ANZ Banking Group и GoTech Solutions Pty Ltd:

Что касается размеров компаний, мы видим, что самые высокие оценочные базовые оклады связаны с компаниями среднего размера, в которых работает от 201 до 500 сотрудников:

Что касается типов компаний, то наивысшие оценочные базовые оклады связаны с государственными компаниями и государственными компаниями:

Что касается отраслей компании, примечательно, что самые высокие оценочные базовые оклады связаны с искусством, развлечениями и отдыхом, информационными технологиями. и Финансовый сектор:

Что касается периодов основания компаний, мы видим, что самые высокие оценочные базовые оклады связаны с компаниями, основанными в XVII и XXI веках:

Что касается отраслей компании, примечательно, что самые высокие оценочные базовые оклады связаны с отраслью национальных услуг и агентств, за которой следует производство транспортного оборудования, Интернет и веб-сервисы, Канцелярские товары и копировальные магазины, Бизнес-консалтинг и Строительство:

Что касается дохода компании, мы видим, что самые высокие оценочные базовые оклады связаны с компаниями с годовым доходом в диапазоне 50–500 миллионов долларов США:

Что касается рейтингов компании Glassdoor, примечательно, что самые высокие оценочные базовые оклады связаны с относительно небольшими рейтингами (около 2,0 и 3,0 рейтинговых балла):

Кроме того, что касается рейтингов рекомендаций друзей компании Glassdoor, мы видим, что самые высокие оценочные базовые оклады связаны с наименьшими рейтингами (20–40 процентных пунктов):

Что касается рейтингов одобрения генерального директора компании Glassdoor, то наибольшая оценочная базовая заработная плата связана с наименьшей (около 20 процентных пунктов) или самой большой (около 100 процентных пунктов) зарплатой. Рейтинг одобрения генерального директора:

Что касается рейтингов карьерных возможностей в компании Glassdoor, то наивысшие оценочные базовые оклады связаны с умеренными рейтингами (около 4,0 рейтинговых баллов):

Что касается рейтингов компенсаций и пособий Glassdoor, мы видим, что наивысшие оценочные базовые оклады связаны с рейтингами около 4,0 и 4,5 рейтинговых баллов:

Что касается рейтингов культуры и ценностей компании Glassdoor, то наивысшие оценочные базовые оклады связаны с рейтингами на уровне 2,5–3,5 рейтинговых баллов:

Что касается рейтинга высшего руководства компании Glassdoor, то наибольшая предполагаемая базовая заработная плата связана с рейтингом около 2,5 рейтинговых баллов:

Что касается рейтингов баланса между работой и личной жизнью в компании Glassdoor, мы видим, что самые высокие оценочные базовые оклады связаны с рейтингами около 4,0 рейтинговых баллов:

Что касается местоположения компании, примечательно, что самые высокие оценочные базовые оклады связаны с компаниями из Нового Южного Уэльса:

Наконец, что касается сопутствующих рабочих технологий, мы видим, что наибольшая оценочная базовая заработная плата связана с C, за которой следует AWS, SQL, Scala и R:

Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.

Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.