Влияние уровня опыта, местоположения компании, должностей и многого другого

В этой статье я проанализировал набор данных, содержащий подробную информацию о 1200зарплатах специалистов по кибербезопасности (по всему миру) в 2020–2022 годах. Этот набор данных общедоступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.

Шаг 1 — предварительная обработка данных

Здесь предварительная обработка данных состоит из следующих шагов:

  • конвертация лейбла (годовая валовая заработная плата) в kUSD;
  • без учета 1% самой высокой и 1% самой маленькой зарплаты;
  • наконец, кодирование редких категориальных переменных с не более чем 20 различными категориями в каждом столбце и не менее 10 выборками данных в каждой категории.

Шаг 2 — настройка модели машинного обучения для прогнозирования годовой валовой заработной платы

Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 39,1 тыс. долларов США в год, что является значительным улучшением по сравнению со среднеквадратичной ошибкой базовой модели, составляющей около 56,1 тыс. долларов США в год. (при одинаковой зарплате около 118 тысяч долларов США в год за каждую запись).

Шаг 3 — объяснение полученной модели машинного обучения.

Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицами стоимости SHAP являются kUSD/год.

Во-первых, мы изучаем диапазон значений SHAP для каждой интересующей нас функции:

Здесь наиболее важными характеристиками, определяющими заработную плату специалистов по кибербезопасности, являются уровень опыта, местонахождение компании и должность.

Ищите более подробную информацию о каждой функции. Начиная с уровня опыта (переменная experience_level):

Неудивительно, что самые большие зарплаты в области кибербезопасности соответствуют уровню исполнительного директора/директора, при этом средняя зарплата примерно на 52 тыс. долларов США в год выше, чем у среднего представителя, и >примерно на 85 тыс.долл.США/год выше, чем у специалистов уровня Entry/Junior.

Еще одним важным фактором является местонахождение компании (переменная company_location):

Как мы видим, самая высокооплачиваемая компания для специалистов по кибербезопасности находится в США, за ней следуют Швейцария, Австралия и >Канада.

Затем давайте посмотрим на названия должностей (переменная job_title):

Примечательно, что самыми высокооплачиваемыми должностями в сфере кибербезопасности являются архитектор кибербезопасности, аналитик киберугроз и архитектор информационной безопасности, за которыми следуют менеджер по информационной безопасности, сотрудник по информационной безопасности и инженер по безопасности.

Следующим важным фактором является страна проживания сотрудника (переменная employee_residence):

Как и в случае с компаниями, самые высокооплачиваемые места проживания для специалистов по кибербезопасности находятся в США, за которыми следуют Австралия, Швейцария и Канада.

Затем ищем рабочий год (переменная work_year):

показывает, чтосредняя зарплата в 2022 году примерно на 11 000 долларов США в год (или примерно на 10 %) больше, чем средняя зарплата в 2021 году.

Что касается удаленной работы (переменная remote_ratio):

мы видим, что у специалистов с полностью удаленной работой годовая валовая заработная плата примерно на 4,7 тыс. долларов США в год выше, чем у специалистов без удаленной работы.

Наконец, мы видим разные значения размеров компаний (переменная company_size):

и типы занятости (переменная employment_type):

не оказывают существенного влияния на годовую валовую заработную плату специалистов по кибербезопасности.

Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.

Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.