Отток кадров, также известный как отток сотрудников или текучесть кадров, относится к скорости, с которой сотрудники покидают компанию в течение определенного периода времени. Увольнение может произойти по разным причинам, включая выход на пенсию, отставку, увольнение или другие обстоятельства. В контексте HR (человеческих ресурсов) высокие показатели текучести могут вызывать беспокойство, поскольку они могут повлиять на производительность, культуру и прибыль компании. Таким образом, управление текучестью кадров является важным аспектом HR-стратегии.

Постановка задачи:

Увольнение кадров является критической проблемой для организаций, ведущей к значительным финансовым потерям, снижению производительности и снижению морального духа оставшихся сотрудников. Выявление ключевых факторов, влияющих на текучесть кадров, и прогнозирование вероятности увольнения могут помочь организациям заранее принять меры для удержания своих сотрудников и снижения уровня увольнения. Таким образом, целью этого проекта является разработка прогностической модели, которая может точно прогнозировать вероятность увольнения сотрудников на основе различных точек данных HR.

Обзор проекта:

Проект будет включать анализ кадровых данных для определения факторов, способствующих увольнению сотрудников. Набор данных будет содержать информацию о демографии сотрудников, характеристиках работы, показателях производительности, компенсациях и льготах, а также других соответствующих переменных. Зависимой переменной будет коэффициент отсева, который показывает, покинул ли сотрудник организацию или нет. Модель будет обучаться на исторических данных и прогнозировать вероятность увольнения новых сотрудников.

Проект будет включать следующие этапы:

  • Сбор данных. Первым шагом является сбор данных о персонале из различных источников и создание комплексного набора данных, включающего все соответствующие переменные.
  • Очистка и подготовка данных: данные будут очищены и предварительно обработаны для удаления любых несоответствий, отсутствующих значений и выбросов. Для преобразования данных и создания новых функций, которые могут быть полезны при прогнозировании убыли, будут применяться методы разработки признаков.
  • Исследовательский анализ данных: данные будут визуализированы и проанализированы для выявления любых закономерностей, тенденций или корреляций, которые могут существовать между переменными и коэффициентом отсева.
  • Разработка модели: к набору данных будут применяться различные алгоритмы машинного обучения для разработки прогностической модели, которая может точно прогнозировать вероятность увольнения. Модель будет оценена с использованием соответствующих показателей производительности и настроена с использованием методов оптимизации гиперпараметров.
  • Развертывание модели. Последним шагом является развертывание модели в производственной среде, где ее можно использовать для прогнозирования вероятности увольнения новых сотрудников и получения информации, которая может помочь организациям принимать обоснованные решения об удержании сотрудников.

Прогнозирование увольнения сотрудников важно по нескольким причинам:

Удержание: помогает организациям выявлять потенциальные причины увольнения сотрудников и реализовывать стратегии по удержанию ценных сотрудников.

Экономия затрат: потеря сотрудника дорого обходится организации. Прогнозируя отток сотрудников, компании могут принимать превентивные меры для сокращения расходов, связанных с наймом, обучением и адаптацией новых сотрудников.

  1. Планирование. Прогнозирование убыли помогает организациям планировать рабочую силу, в том числе определять ключевые должности, подверженные риску текучести кадров, что может помочь организациям подготовиться к кадровым изменениям и планированию преемственности.
  2. Управление эффективностью. Анализируя факторы, приводящие к увольнению сотрудников, организации могут оценить эффективность своих систем управления эффективностью и определить области для улучшения.
  3. Вовлеченность сотрудников. Прогнозирование увольнения сотрудников также может помочь организациям определить области низкой вовлеченности сотрудников, которые можно устранить для повышения удовлетворенности и мотивации сотрудников.

Набор данных представляет собой фиктивный набор данных HR, который можно использовать для анализа.

Ниже описана описательная статистика признаков, всего 22 столбца, доступны как категориальные, так и числовые переменные.

Выше приведены некоторые исследования данных, чтобы понять основные данные.

Выше показаны типы данных каждого столбца, мы можем видеть, что существует несколько типов данных, включая целые и объектные типы.

Мы также провели корреляционный анализ, чтобы увидеть поведение столбцов друг с другом.

Мы выполнили некоторые шаги предварительной обработки, такие как очистка имен и преобразование категориальных переменных с помощью pd.get_dummies, и создали для этого функцию, как показано ниже:

Мы проверили все пропущенные значения, однако в функциях нет пропущенных значений, как показано ниже:

После всех необходимых шагов предварительной обработки, таких как очистка имен столбцов, стандартизация имен столбцов и преобразование категориальных переменных, мы применили несколько моделей для проверки и прогнозирования точности.

Сравнение точности модели:

Как мы видим, модели SVC, ExtraTreesClassifier и RandomForestClassifier имеют высокую точность. Мы собираемся использовать GridSearchCV для обучения модели RandomForestClassifier для проверки точности.

Были выбраны четыре гиперпараметра:

  1. n_estimators: это гиперпараметр, определяющий количество деревьев решений, которые будут построены в модели случайного леса. Увеличение количества деревьев обычно приводит к повышению производительности, но за счет увеличения вычислительных ресурсов.
  2. max_depth: это гиперпараметр, определяющий максимальную глубину каждого дерева решений в случайном лесу. Увеличение глубины позволяет дереву фиксировать более сложные взаимосвязи в данных, но также может привести к переоснащению, если задана слишком большая глубина.
  3. min_samples_split: это гиперпараметр, определяющий минимальное количество выборок, необходимых для разделения внутреннего узла дерева решений. Увеличение этого параметра сделает дерево более консервативным и предотвратит его переоснащение шумом в данных.
  4. min_samples_leaf: это гиперпараметр, который определяет минимальное количество выборок, необходимых для листового узла дерева решений. Увеличение этого параметра также сделает дерево более консервативным и предотвратит его переоснащение шумом в данных.

мы использовали модель RandomForestClassifier, уникальную модель, используемую для задач классификации. Классификатор случайного леса — это контролируемый алгоритм машинного обучения, который используется для решения задач классификации. Это ансамблевый алгоритм, который создает несколько деревьев решений, а затем объединяет результаты этих деревьев для классификации входных данных.

Алгоритм случайным образом выбирает подмножества обучающих данных для создания набора деревьев решений. Каждое дерево создается с использованием другого подмножества данных и другого набора функций. Эта случайность помогает предотвратить переоснащение и повышает точность модели.

Во время прогнозирования алгоритм объединяет результаты всех деревьев решений для принятия окончательного решения о классификации. Решение принимается большинством голосов, при этом в качестве окончательного результата выбирается класс, предсказанный наибольшим количеством деревьев.

Классификатор Random Forest известен своей высокой точностью даже при работе с зашумленными и сложными наборами данных. Он может обрабатывать большое количество входных переменных, включая категориальные и непрерывные переменные, и менее подвержен переобучению по сравнению с другими алгоритмами, такими как деревья решений. Кроме того, его относительно легко настроить, и для него требуется установить меньше гиперпараметров по сравнению с другими алгоритмами ансамбля.

Приведенный выше код даст наилучшие параметры и показатели оценки, такие как точность, отзыв, оценка F1 и матрица путаницы. Мы получили следующие результаты.

Некоторые важные соображения при выборе показателей оценки:

Точность: измеряет долю истинных положительных результатов среди всех положительных прогнозов. Это полезно, когда цена ложных срабатываний (предсказание того, что сотрудник уйдет, когда он на самом деле остается) высока.

Напомним: измеряет долю истинных положительных результатов от всех фактических положительных результатов. Это полезно, когда цена ложноотрицательных результатов (предсказание того, что сотрудник останется, когда он действительно уйдет) высока.

Оценка F1: средневзвешенное значение точности и полноты, которое балансирует между двумя показателями. Это полезно, когда важны как ложноположительные, так и ложноотрицательные результаты.

AUC-ROC: измеряет площадь под кривой рабочей характеристики приемника, на которой отображается частота истинных положительных результатов в сравнении с частотой ложных положительных результатов при различных пороговых значениях. Это полезно, когда компромисс между ложными положительными и ложными отрицательными результатами не определен.

Кроме того, другие показатели, такие как специфичность, отрицательная прогностическая ценность и положительная прогностическая ценность, также могут использоваться в зависимости от конкретных требований проблемы. Важно выбрать наиболее подходящую метрику оценки, исходя из потребностей бизнеса и конкретного контекста проблемы.

Вот некоторые сложности, возникающие при использовании RandomForestClassifier:

  1. Переобучение: поскольку модель построена путем объединения нескольких деревьев решений, существует риск переобучения. Если модель слишком сложна или число деревьев слишком велико, модель может запоминать обучающие данные вместо того, чтобы обобщать их на новые данные.
  2. Медленное время обучения: поскольку для построения модели используется несколько деревьев решений, обучение RandomForestClassifier может занять больше времени, чем обучение одного дерева решений.
  3. Трудно интерпретировать: RandomForestClassifier — это модель черного ящика, а это означает, что может быть трудно интерпретировать, как модель делает свои прогнозы. Может быть трудно понять, какие функции наиболее важны для прогнозирования.
  4. Несбалансированные данные: RandomForestClassifier может бороться с несбалансированными наборами данных, где количество примеров в каждом классе не равно. Модель может быть смещена в сторону класса большинства и плохо обобщаться на класс меньшинства.
  5. Настройка гиперпараметров: RandomForestClassifier имеет несколько гиперпараметров, которые можно настроить для оптимизации производительности модели. Однако поиск оптимальных гиперпараметров может занять много времени и потребовать много вычислительных ресурсов.

Узнайте, почему некоторые модели работали лучше.

Модели ансамбля, такие как Random Forest, являются хорошей идеей для моделей машинного обучения сокращения персонала по нескольким причинам:

  1. Повышенная точность: ансамблевые модели объединяют несколько деревьев решений для получения окончательного прогноза. Это помогает уменьшить смещение и переоснащение, что приводит к повышению точности.
  2. Надежность: ансамблевые модели менее чувствительны к выбросам и зашумленным данным, чем модели с одним деревом решений. Это связано с тем, что модель ансамбля объединяет прогнозы нескольких деревьев, что помогает уменьшить влияние любого отдельного дерева, на которое могут повлиять выбросы или шум.
  3. Выбор признаков: Ансамблевые модели способны выполнять выбор признаков, что означает, что они могут определить наиболее важные признаки для прогнозирования. Это может быть полезно в моделях текучести кадров, поскольку позволяет модели сосредоточиться на наиболее важных факторах, влияющих на текучесть кадров.
  4. Масштабируемость: ансамблевые модели хорошо масштабируются и могут обучаться на больших наборах данных, не требуя значительных вычислительных ресурсов. Это делает их подходящими для моделей сокращения персонала, которым необходимо анализировать большие объемы данных.

В целом, ансамблевые модели, такие как Random Forest, являются хорошим выбором для моделей истощения HR из-за их повышенной точности, надежности, возможностей выбора функций и масштабируемости.

Аспекты, представляющие интерес для анализа:

1. Работа и экспериментирование с несколькими моделями предоставили возможность изучить точность нескольких моделей.

2- Решение бизнес-проблемы, связанной с убылью персонала, также очень полезно для HR-отдела, чтобы справиться с высокой убылью за счет понимания поведения сотрудника.

Способы улучшения реализации и анализа:

Вот три способа, которыми можно улучшить модель и анализ убыли кадров:

  1. Разработка признаков. Разработка признаков включает в себя создание новых функций или преобразование существующих для повышения прогностической способности модели. Это может включать в себя извлечение дополнительной информации из существующих переменных или их осмысленное объединение. Например, мы могли бы создать новую функцию, которая измеряет отношение зарплаты сотрудника к его расстоянию от работы, что может быть предиктором увольнения.
  2. Выбор модели.Хотя классификатор Random Forest является популярным и эффективным алгоритмом для задач классификации, существует множество других моделей, которые можно изучить, чтобы увидеть, будут ли они лучше работать с набором данных об убыли кадров. Мы могли бы попробовать такие модели, как XGBoost, машины опорных векторов или искусственные нейронные сети, и сравнить их производительность с классификатором случайного леса.
  3. Сбор данных. Набор данных, используемый для модели увольнения персонала, может не содержать всех соответствующих функций или достаточного количества точек данных для создания точной модели. Сбор большего количества данных либо с помощью опросов, либо путем ссылки на другие наборы данных может помочь повысить точность модели. Кроме того, сбор данных о настроении сотрудников, удовлетворенности работой и балансе между работой и личной жизнью может дать представление о факторах, способствующих увольнению, и помочь в дальнейшем уточнении модели.

Заключение

Результаты модели классификации показывают, что она имеет хорошие прогностические характеристики на тестовом наборе. Точность модели составляет 0,9008, что означает, что из всех сотрудников, которые должны были уйти, 90,08% действительно уволились. Отзыв модели составляет 0,9116, что означает, что из всех фактически уволившихся сотрудников модель правильно идентифицировала 91,16%. Показатель F1 модели составляет 0,9062, что является гармоническим средним значением точности и полноты и является хорошей мерой общей производительности модели.

В целом, высокое значение точности указывает на то, что модель точно определяет сотрудников, которые могут уйти, а высокое значение полноты указывает на то, что модель правильно определяет большинство фактически уволившихся сотрудников. Оценка F1 обеспечивает сбалансированную меру точности и отзыва.

Важно отметить, что интерпретация этих результатов может варьироваться в зависимости от конкретного бизнес-контекста и связанных с этим издержек и выгод различных типов ошибок. Однако в целом эти результаты показывают, что классификатор случайного леса с выбранными гиперпараметрами является хорошей моделью-кандидатом для прогнозирования увольнения сотрудников.

Подтверждение:

Репозиторий GitHub: https://github.com/itsmeshaad007/HR-Attrition-capstone.git

https://www.gartner.com/en/human-resources/glossary/attrition#:~:text=Atrition%20is%20the%20departure%20of,%2C%20termition%2C%20death%20or%20retirement.