Прогнозирование коэффициента убыли сотрудников IBM с помощью алгоритмов машинного обучения

Вступление

Продолжайте читать и продолжайте учиться

Хотя нет никаких отраслевых стандартов по определению расходов на потерю наемного работника, некоторые исследования (например, SHMR) предполагают, что каждый раз, когда бизнес заменяет наемного работника, это стоит от 5 до 8 месяцев компенсации всех учтенных расходов. . Для супервизора, зарабатывающего 50 000 долларов в год, это от 30 000 до 40 000 долларов на зачисление и найм.

Тем не менее, другие предвидят, что расходы будут значительно больше - потеря наемного работника может стоить в два раза больше их годового вознаграждения, особенно для менеджера высшего / среднего звена. Огромные затраты включают в себя расходы на набор, адаптацию и длительную потерю эффективности.

Читая эту статью, можно понять две разные точки зрения: -

Индивидуальная точка зрения - как организация рассчитывает коэффициент отсева с помощью алгоритмов машинного обучения, а также может оценить шансы, есть ли возможность подать заявку в организации или нет.

Перспектива компании: организация также узнает, следует ли ей начинать набор персонала или нет. Если коэффициент отсева высок, тогда организация также узнает время для внесения поправок в текущую политику удержания сотрудников.

Что такое апельсин?

Orange - это программный пакет для визуального программирования, используемый в этой области. Он широко используется, начиная от машинного обучения, интеллектуального анализа и анализа данных и т. Д. Инструменты Orange (называемые виджетами) относятся к сфере простой визуализации данных и предварительной обработки, эмпирической оценки алгоритмов обучения и прогнозного моделирования. Визуальное программирование реализуется посредством комбинации, в которой рабочие процессы разрабатываются путем связывания пользовательских виджетов.

В то же время опытные пользователи могут использовать Orange в качестве библиотеки Python для управления данными и изменения виджета.

Скорость истощения

Коэффициент отсева используется для количественной оценки потерянных за период сотрудников, которые еще не были заменены. Ставка представляет собой процент, контрастирующий с общей численностью персонала. HR часто используют коэффициент отсева для определения количества вакантных должностей.

Сначала был загружен файл .CSV (содержащий данные сотрудников IBM), затем были выбраны все целевые столбцы, то есть истощение, а затем RANK Виджет был выбран из столбца данных, поскольку ранжирование помогает составить суть того, что требуется больше всего в данных. Затем были выбраны первые 20 заголовков данных в соответствии с различными рангами.

Просмотр данных в соответствии с РАНГОМ, а затем ВЫБОР данных из ФАЙЛА.

Данные были проверены с помощью таблицы данных - чтобы узнать, есть ли в данных какие-либо пропущенные значения или нет, согласно таблице данных - данные не имеют пропущенных значений.

Это показывает, что у данных нет НЕТ ЗАПИСАННЫХ ЗНАЧЕНИЙ.

Прогноз был сделан оранжевым с использованием различных моделей, а затем оценен с помощью теста и оценки.

В предыдущей статье упоминалось, что СЛУЧАЙНЫЙ ЛЕС был ЛУЧШЕЙ МОДЕЛЬЮ. Итак, на этот раз были использованы три разные модели - СЛУЧАЙНЫЙ ЛЕС, ПОДДЕРЖКА ВЕКТОРНОЙ МАШИНЫ (SVM) и ИСКУССТВЕННАЯ НЕЙРОННАЯ СЕТЬ (ANN), а затем было проведено сравнение , чтобы понять, какая модель будет более эффективной и действенной для лучшего прогнозирования.

- Модель случайного леса использовалась в прогнозе, потому что: -

Случайный лес - это алгоритм обучения на основе дерева, способный принимать точные решения, так как он объединяет множество деревьев решений. Как следует из названия - это лес деревьев. Следовательно, случайный лес требует больше времени на обучение, чем одно дерево решений. Каждая ветвь и лист в дереве решений работает со случайными признаками, чтобы предсказать результат. Затем этот алгоритм объединяет все прогнозы отдельных деревьев решений для генерации окончательного прогноза, а также может работать с недостающими значениями.

- Модель машины опорных векторов (SVM) использовалась в прогнозе, потому что: -

SVM имеет функцию регуляризации. Таким образом, он обладает хорошими возможностями обобщения, которые предотвращают его чрезмерную подгонку, а также его можно использовать для решения как категориальных, так и числовых задач. Небольшое изменение данных не оказывает существенного влияния на SVM. Итак, модель SVM стабильна.

- Модель искусственной нейронной сети (ИНС) использовалась в прогнозе, потому что: -

ANN похож на наш мозг; миллионы и миллиарды клеток - нейронов, которые обрабатывают информацию в виде электрических сигналов. Точно так же в ИНС структура сети имеет входной уровень, скрытый слой и выходной уровень. Его также называют многослойным персептроном, поскольку он состоит из нескольких слоев. Скрытый слой известен как «дистилляционный слой», который извлекает некоторые критические шаблоны из данных / информации и передает их на следующий уровень. Затем он делает сеть более быстрой и продуктивной, отделяя данные от источников данных, не обращая внимания на лишние данные.

Он фиксирует нелинейную зависимость между входами.
Это помогает преобразовать информацию / данные в более полезную информацию.

После теста и оценки (помогает анализировать и переводить качественные данные (символы) в количественные данные (числа)), были использованы метрики путаницы, чтобы увидеть все истинно положительные, ложно отрицательные значения, неверно классифицированные и правильные данные. И, наконец, для понимания данных использовалась визуализация распределения.

Заключение

Окончательный прогноз оказался другим, поэтому теперь необходимо взять среднее значение (Среднее от общей численности населения) (Среднее значение ДА КАТЕГОРИИ) (Среднее значение НЕТ КАТЕГОРИИ).

Окончательные результаты оказались разными, так как все три модели имеют разные значения. Итак, необходимо взять среднее значение всех результатов.

Среднее значение показателя истощения.

Таким образом, можно сказать, что в категории «ВНИМАНИЕ» только 7,45% населения (всего населения составляет 1236 человек) попадает в категорию ДА, , а остальная часть, т. е. 92,55% населения, попадает в категорию НЕТ.

И также можно сказать, что искусственная нейронная сеть (ИНС) является лучшей моделью, чем машина опорных векторов (SVM) и случайный лес, потому что она имеет более высокий AUC (площадь под кривой) как:

AUC является масштабно-инвариантным , т. Е., - он измеряет, насколько хорошо ранжируются прогнозы.
AUC также является инвариантом порога классификации, т. Е., он измеряет качество прогноза модели.

ПРИМЕЧАНИЕ. Десятичные числа будут игнорироваться, так как позиции десятичных знаков не могут быть свободными, они будут округлены.

В этом случае видно, что - Искусственная нейронная сеть (ИНС) является лучшей моделью, так как имеет ВЫСОКИЙ AUC (площадь под кривой).

Этот набор данных (файл .CSV) взят из Kaggle.

Имя файла: Набор данных об истощении сотрудников IBM HR Analytics

Контакты

Если у вас есть какие-либо вопросы или предложения по поводу моей следующей статьи, оставьте комментарий ниже или напишите мне по адресу [электронная почта защищена]

Если вы хотите быть в курсе моих последних статей и проектов, подписывайтесь на меня на Medium.

Свяжитесь со мной через: LinkedIn Instagram

Вы также можете прочитать эту статью в нашем мобильном приложении.

Первоначально опубликовано на https://www.analyticsvidhya.com 23 ноября 2020 г.