Тестируйте различные алгоритмы машинного обучения на малых и средних предприятиях (МСП), обращая внимание на алгоритмические ошибки.

Аналитика человеческих ресурсов - можем ли мы предсказать текучесть кадров с помощью вставки в R?

Тестируйте различные алгоритмы машинного обучения на малых и средних предприятиях (МСП), обращая внимание на алгоритмические ошибки.

Обзор данных - это знаменитый набор данных IBM HR Analytics.

Люди являются ключевым фактором успеха любой организации - ничто другое не приносит такой большой ценности, как опытные умы в нужное время и в нужном месте. Вот почему организации по всему миру прилагают огромные усилия для поиска и - что, возможно, даже более важно - для поддержания ценных талантов. В мире данных менеджеры по персоналу больше не полагаются только на свою интуицию, когда дело доходит до разработки стратегий по развитию собственной высококвалифицированной рабочей силы: они используют аналитику для улучшения своей практики управления персоналом и достижения успеха в бизнесе. а также удовлетворенность сотрудников действительно измеримыми.

В случае текучести кадров считается, что использование прогнозной аналитики не только принесет пользу людям, но и поможет сохранить финансы компании: когда квалифицированный член команды уходит добровольно, это всегда связано с большим количеством времени и денег, потраченных на поиск и размещение подходящей замены. Кроме того, это может повлиять на общую производительность фирмы, лояльность клиентов и своевременную доставку продуктов (Hammermann & Thiele, 2019; Sexton et al., 2005). Среди многих других причин это связано с тем, что целая область возникла из идеи использования данных для поддержки человеческих ресурсов: HR-аналитика (также называемая кадровой аналитикой) - это изменение способа найма и удержания талантов на основе аналитики, основанной на данных (Isson & Харриот, 2016). Таким образом, аналитика данных используется для прогнозирования поведенческих моделей (например, коэффициентов выбытия, затрат на обучение, производительности), которые по своей сути являются информативными для соответствующего руководства, поскольку могут направлять их процесс принятия решений. Основываясь на успешной реализации алгоритмов машинного обучения, некоторые крупные игроки уже применяют прогнозную аналитику, чтобы уменьшить отток и увеличить удержание своих прибыльных сотрудников. Например, (бывший) старший вице-президент по персоналу Google утверждал, что статистика использовалась для полной автоматизации их вопросов на собеседовании - на основе профилей их кандидатов и фактически использовала данные сотрудников для прогнозирования текучести (Laszlo Bock, 2016). Теперь, как энтузиастам данных, наша задача - поддержать менеджеров по персоналу для обеспечения непрерывности их планирования, помогая им сократить расходы, связанные с частой текучестью, и способствовать успешному росту на рынке.

«HR-аналитика (также называемая кадровой аналитикой) - это изменение способа найма и удержания талантов на основе аналитики, основанной на данных». - Иссон и Харриот, 2016 г.

Быстрый поиск в Google Scholar показывает, что существует множество исследовательских статей, демонстрирующих, как различные алгоритмы машинного обучения могут предсказывать текучесть кадров. Тем не менее, основное внимание обычно уделяется техническим характеристикам (например, характеристикам модели, выбору функций и т. Д.), В то время как практический контекст этих приложений более или менее остается на усмотрение читателя. Например, Чжао и его коллеги оценили различные методы контролируемого машинного обучения для прогнозирования текучести кадров на смоделированных и реальных наборах данных HR малых, средних и крупных организаций (Zhao et al., 2019). Эти алгоритмы машинного обучения используются для прогнозирования текучести кадров в диапазоне от дерева решений и методов случайного леса, деревьев градиентного повышения, экстремального повышения градиента по сравнению с логистической регрессией, опорных векторных машин, нейронных сетей, линейного дискриминантного анализа, наивных методов Байеса и K-ближайших соседей.

Даже если попытки предсказать текучесть кадров с помощью современной аналитики кажутся огромным потенциалом, существуют некоторые ограничения, которые могут затруднить перенос этих научных результатов на реальные примеры из отрасли:

До «среднего», лежащего в пределах 0,75–1,25

При работе с данными мы можем использовать любую из следующих стратегий: когда наша цель - предсказать соответствующие результаты, нам не нужно полностью понимать задействованные механизмы (Yarkoni & Westfall, 2017). Наша стратегия будет скорее ориентирована на предсказания. В случае с проблемой текучести кадров мы, возможно, не хотим терять слишком много времени, ломая голову над «почему», когда мы уже можем предсказать, какие сотрудники рискуют уйти в ближайшее время - в конце концов, наш шанс что-то изменить лежит только в будущем. Хорошая модель машинного обучения не обязательно должна основываться на теории, чтобы делать точные прогнозы, потому что она по своей сути учится на данных: алгоритм имитирует результаты процесса генерации данных при добавлении в него новых наблюдений (например, новых сотрудников) без явного « зная что-нибудь о причинах.

Но если у вас есть сильная академическая подготовка и вы задаете много вопросов «почему», вы, вероятно, возразите, что мы также хотели бы знать, почему сотрудники вообще уходят из организации. Если мы не имеем представления о механизме, лежащем в основе ухода сотрудников, будет еще труднее разработать целевые меры. К счастью, есть исследования, подчеркивающие важность регулярного повышения заработной платы, роль деловых поездок и удовлетворенности работой для текучести кадров. Это помогает нам определить реальные «болевые точки» внутри организации и по-настоящему понять, что движет намерением уйти.

2. Статистических данных недостаточно для работы с отдельными лицами.

3. Использование аналитики не оправдывает неэтичных действий.

Антиутопия ИИ часто связана с тем, что машины принимают этически чувствительные решения, превращая компьютеры в лиц, принимающих решения. Даже если следующие примеры далеки от такого сценария, мы должны знать, что даже если данные могут информировать лиц, принимающих решения, с разумной информацией, они не сами принимают решения и должны использоваться при соблюдении надлежащих правил защиты данных и конфиденциальности. Когда дело доходит до использования HR-аналитики для рекрутинга, было предложено дать кандидатам возможность зарегистрироваться и контролировать свои данные, решив, могут ли потенциальные работодатели и рекрутеры оценивать свой цифровой след для решения любых этических проблем. и юридические проблемы (Chamorro-Premuzic et al. 2013). Другое предложение касается большей автономии людей, на которых влияют инструменты HR-аналитики: сотрудники не должны становиться пассивными получателями алгоритмического управления, но должны иметь возможность действительно понимать, как модель делает прогнозы, и при необходимости давать критическую обратную связь.

Еще одно жуткое приложение, на которое я наткнулся в литературе, включает использование профилей в социальных сетях, таких как LinkedIn или Xing, с целью предсказать характер кандидатов на основе анализа настроений - и то и другое для оценки пригодности кандидата для работы (Faliagka, 2012 ). Все вышеперечисленные процедуры, безусловно, открывают интересные идеи для исследователей и психологов, но не должны применяться, когда люди, данные которых обрабатываются, не дали никакого согласия.

4. Наборы данных о сотрудниках, доступные в отрасли, часто нечеткие и нечеткие.

Если прогноз основан на исторических данных, мы всегда должны спрашивать себя, действительно ли они могут быть обобщены на новые, но неизвестные наблюдения. Теперь, даже если смоделированные данные HR кажутся подарком любому увлеченному специалисту по данным, реальные данные HR часто являются конфиденциальными, небольшими, непоследовательными и содержат недостающую информацию. В случае компаний среднего размера не все из них могут позволить себе крупномасштабное хранилище данных, что затрудняет хранение данных сотрудников согласованным образом. Более того, он обычно включает лишь небольшую часть сотрудников, которые фактически покинули компанию, что делает классы (оставшиеся / оставленные) несбалансированными - характеристика, которая требует особого внимания при оценке моделей машинного обучения (но об этом позже).

Еще одно изменение, связанное с данными, касается качества и количества данных: Яхья, Хлел и Коломо-Палацис (2021) выступают за переход от больших данных к тому, что они называют «глубокими данными» - качественным данным, содержащим все необходимое. функции для практического прогнозирования оборота. Действительно, массивные наборы данных о сотрудниках недоступны для средних и малых фирм и не являются необходимыми, если мы можем определить ключевые движущие силы текучести кадров. В литературе есть и другие мнения, которые идут еще дальше и предполагают, что большие наборы неструктурированных данных (часто называемые «большими данными») не всегда лучше, потому что они могут быть настолько шумными, что «подавляют» предсказательную способность каждой модели (Chamorro -Premuzic et al., 2013).

Это просто мягкое напоминание, чтобы вы узнали о силе прогнозной аналитики и ее влиянии на людей - я настоятельно рекомендую «эту статью» доктора Мишель Лой, который суммировал этические рекомендации по развертыванию инструментов кадровой аналитики сверх и за его пределами. GDPR. Помня об этих политических проблемах, мы рассмотрим небольшой пример, чтобы выяснить, можно ли применить прогноз оттока сотрудников к небольшой фиктивной выборке, полученной из известного набора данных о сотрудниках IBM. Мне любопытно узнать, может ли это сработать и в реальных случаях!

Набор данных, который мы будем использовать для нашего тематического исследования, представляет собой смоделированный набор данных, созданный IBM Watson Analytics, который можно найти на Kaggle. Он содержит 1470 записей о сотрудниках и 38 общих характеристик (ежемесячный доход, удовлетворенность работой, пол и т. Д.), Одна из которых - наша целевая переменная (Сотрудник) Отставание (ДА / НЕТ). Давайте посмотрим на наши необработанные данные.

Убыток сотрудников - что могло заставить людей уйти?

Отказ от ответственности: вся графика сделана автором, если не указано иное.

Кажется, у нас есть 26 числовых переменных и 9 символьных переменных, которые различаются по своим уровням. Ни одно из наблюдений не пропущено, и сводка, которую дает нам функция снятия информации, показывает некоторую описательную статистику, включая среднее значение, стандартное отклонение, процентили, а также гистограмму. Я большой поклонник функции просмотра данных - посмотрите, насколько практично получить такой краткий и в то же время подробный обзор данных!

Совершенно очевидно, что оплата, которая считается несправедливой, может повлиять на намерение человека оставить работу в поисках лучшей оплаты (Harden, Boakye & Ryan, 2018; Sarkar, 2018; Bryant & Allen, 2013). Вот почему мы хотели бы создать еще одну переменную, которая представляет конкурентоспособность оплаты ежемесячного дохода каждого сотрудника. Причина этого заключается в том, что сотрудники могут сравнивать свой доход с доходами своих сверстников, работающих на том же уровне. Тот, кто считает свою оплату справедливой, с меньшей вероятностью покинет компанию по сравнению с человеком, который получает значительно меньше на аналогичной должности. Для этого мы воспользуемся синтаксисом data.table, чтобы сначала вычислить медианную компенсацию по уровню работы и сохранить соответствующее значение для каждого наблюдения. Затем мы разделим ежемесячный доход каждого сотрудника на средний доход, чтобы получить коэффициент его или ее компенсации: показатель, который напрямую представляет оплату сотрудника по отношению к тому, что можно было бы ожидать в зависимости от уровня должности. Таким образом, 1 балл означает, что сотрудник в точности соответствует средней заработной плате по данной должности. Оценка 1,2 означает, что работнику платят на 20% выше средней заработной платы, а оценка 0,8 означает, что человеку платят на 20% меньше, чем можно было бы ожидать при обычной оплате за уровень работы. Чтобы представить это на факториальном уровне, мы присвоим значения

Вот как наши недавно сгенерированные функции выглядят на первых 10 наблюдениях:

«Ниже», лежащие в пределах от 0 до 0,74 и
до «выше», лежащих в пределах 1,25 и 2 диапазона коэффициента компенсации.
Похоже, что YearsAtCompany сильно коррелирует с YearsInCurrentRole, YearsSinceLastPromotion и YearsWithCurrManager. Таким образом, может оставаться только одна из этих переменных, связанных со временем: я бы предложил оставить «Годы с последнего повышения», потому что это может объяснить некоторые дополнительные отклонения, которые другие не могут: это относится не только ко времени, прошедшему с тех пор, как сотрудник вошел в компании, но и годы, которые прошли без продвижения по службе. Как следует из литературы, регулярное повышение заработной платы, которое часто является следствием продвижения по службе, играет решающую роль в защите от текучести кадров (Das & Baruah, 2013).

Но сколько сотрудников на самом деле ушло? Давайте посчитаем текучесть кадров, чтобы узнать что-нибудь о распределении классов.

Таким образом, получается, что 237 сотрудников (16%) покинули компанию за определенный период времени, в то время как большинство (почти 84%) остались. Как указывалось выше, многие менеджеры по персоналу не имеют доступа к огромным наборам данных, содержащим тысячи сотрудников с полными записями. А что, если мы хотим посоветовать малую и среднюю фирму, в которой работает от 50 до 250 сотрудников? Можем ли мы по-прежнему обучать алгоритмы машинного обучения предсказывать текучесть кадров?

Чтобы создать дополнительную проблему и имитировать реальную выборку, имитирующую «малую и среднюю компанию», мы случайным образом возьмем 126 наблюдений из нашего полного набора данных IBM Watson. Я поставлю семя, чтобы сделать его более воспроизводимым для вас.

Теперь давайте подробнее рассмотрим взаимосвязь между двумя ключевыми факторами оттока сотрудников: удовлетворенность работой и компенсация. Типичная гипотеза, полученная из литературы, предполагает, что более высокая удовлетворенность работой связана с более низкой вероятностью текучести кадров - у несчастных сотрудников обычно больше причин для увольнения, потому что они ожидают быть более счастливыми в другом месте и не чувствуют себя столь эмоционально привязанными к своей нынешней организации. сделать его более желанным и легким уехать, как только будут найдены привлекательные альтернативы (Zimmermann, Swider & Boswell, 2018).

Предварительная обработка функций - подготовьте данные к анализу и удалите излишки

Похоже, что данные в целом подтверждают эту гипотезу: даже если хвосты распределения демонстрируют, что несколько оставшихся сотрудников на самом деле неудовлетворены, а некоторые увольняющиеся счастливы, общая тенденция предполагает, что увольняющиеся сотрудники действительно в среднем менее удовлетворены, чем остальные. сотрудников в нашей выборке.

Хорошо, но как сочетание ежемесячного дохода и удовлетворенности работой отличается в зависимости от оттока сотрудников? В частности, может ли более низкий доход быть причиной увольнения сотрудников, которые на самом деле удовлетворены своей работой?

Конечно, мы не можем полностью сказать, существует ли причинно-следственная связь между доходом или удовлетворенностью работой и увольнением сотрудников, но все же интересно посмотреть, есть ли какой-либо намек на эту связь. Удивительно, но у очень неудовлетворенных сотрудников ежемесячный доход фактически выше, чем у оставшихся сотрудников. Это говорит о том, что один только ежемесячный доход не может учитывать текучесть кадров в тех случаях, когда сотрудники не удовлетворены своей работой - деньги - это еще не все! Это согласуется с наблюдением, что удовлетворение компенсацией - это лишь одна сторона одной медали: чтобы быть по-настоящему довольными своей работой, сотрудники ожидают не только соответствующей компенсации за свой тяжелый труд, но и ряда факторов, которые способствуют их общему удовлетворению. своей работой (например, неденежная поддержка со стороны их руководителей, прочные отношения с замечательными коллегами, чувство удовлетворения от самой работы и т. д.) (Zimmermann et al., 2018). Любопытно, что для более довольных сотрудников отношения складываются наоборот: как и следовало ожидать, людям, которые остались, платят значительно лучше, чем увольняющимся. Эта закономерность даже кажется более выраженной, чем выше мы поднимаемся по лестнице счастья: разрыв в оплате, кажется, линейно увеличивается с каждым уровнем удовлетворенности работой. Мы можем предположить, что более удовлетворенные сотрудники имеют больше ресурсов, чтобы вкладывать много энергии в свою работу, что делает их более устойчивыми к высоким требованиям работы (Bakker & Demerouti, 2007). Поскольку компенсация часто связана с производительностью, это может привести к двум сценариям: прирост энергии может привести к соответствующему продвижению по службе для некоторых сотрудников, что даст им еще больший стимул оставаться с их нынешним работодателем, но если им не дадут лучшую компенсацию. в свою очередь, это может быть воспринято как несправедливость и еще одна причина для ухода из организации (Birtch, Chiang & Van Esch, 2016). Тем не менее, проверка этого предположения выходит за рамки данной статьи, и сложно протестировать такой смоделированный набор данных, который изначально не включает продольную информацию.

Но мы можем утверждать, что оплата, безусловно, связана с уровнем должности сотрудника, поскольку менеджеры, естественно, зарабатывают больше, чем младшие консультанты. Сохранятся ли отношения, если поменять местами ось Y на переменную CompensationRatio, которую мы создали ранее? Например, получают ли уволившиеся сотрудники со средним и высоким уровнем удовлетворенности меньше по сравнению с тем, что можно было бы ожидать в соответствии с их уровнем должности?

Не совсем. В среднем выпускникам часто платят среднюю зарплату или даже лучше, чем их сверстникам. Даже если кажется, что диапазон различных степеней конкурентоспособности в оплате труда немного больше в середине шкалы удовлетворенности работой, это говорит о том, что конкурентоспособность в оплате не очень счастливых сотрудников, которые уволились, может сильно отличаться. Но здесь следует проявлять осторожность и избегать преждевременных интерпретаций: может быть значительно больше сотрудников, которые демонстрируют среднюю степень удовлетворенности работой, чем тех, кто лжет на более экстремальном уровне (очень счастлив / несчастлив). Если бы у нас было больше сотрудников в середине распределения удовлетворенности, шансы были бы выше, что каждый уровень конкурентоспособности заработной платы был бы в некоторой степени покрыт, не так ли? С другой стороны, более крупные выборки часто приводят к тому, что распределение выглядит более нормально распределенным и менее плоским, в то время как пики плотности достигают среднего значения, как утверждает центральная предельная теорема. Давайте рассчитаем быструю проверку работоспособности, чтобы выяснить, как это применимо к нашему образцу:

Ух ты, в нашей выборке больше удовлетворенных, чем неудовлетворенных сотрудников, так как они составляют около 65% наблюдений. Таким образом, наша вторая интерпретация более вероятна в этом случае, и на первый взгляд нет очевидных эффектов взаимодействия между удовлетворенностью работой и конкурентоспособностью заработной платы, которые могли бы способствовать выбытию сотрудников.

Меня как квалифицированного психолога особенно интересует вопрос о том, как психологический климат может повлиять на намерение сотрудника уволиться. В частности, для части моделирования мы будем использовать «пакет каретки», сокращение от Classification And REgression Training, который был разработан Максом Куном и другими умными участниками. У Caret есть хорошая встроенная функция, позволяющая быстро получить представление об интересующих нас функциях.

Поскольку шкала, по которой оценивается каждая из этих переменных, является порядковой по своей природе, график плотности выглядит круто, но может быть здесь не идеальным выбором: эксцесс кривых напрямую зависит от дисбаланса нашего класса (некоторые из тех, кто уходит, и многие). кто остается), что может вводить в заблуждение, и мы не хотим галлюцинировать какие-либо закономерности здесь, где их нет. Поэтому попробуем другой прием: мозаичные сюжеты.

Теперь то, что делает функция мозаики из пакета vcd, - это проверка того, могли ли частоты в нашем образце быть сгенерированы простой случайностью. Это делается путем негласного вычисления критерия хи-квадрат. Теперь мы можем проанализировать результаты, посмотрев как на размер прямоугольников, так и на цвета: площадь прямоугольника представляет собой долю случаев для любой данной комбинации уровней, а цвет плиток указывает степень взаимосвязи между переменными - чем больше цвет отклоняется от серого, тем больше мы должны подвергать сомнению статистическую независимость между различными комбинациями факторов (что представлено шкалой остатков Пирсона справа). Обычно темно-синий представляет больше случаев, чем ожидалось, учитывая случайное происшествие, а темно-красный представляет меньше случаев, чем ожидалось, если они были созданы случайно.

Хорошо - в нашем случае каждая плитка окрашена в серый цвет, что говорит об отсутствии сильных отклонений от статистической независимости. Только в случае «Удовлетворение окружающей среды» мы могли бы задаться вопросом, не являются ли выпускники чрезмерно неудовлетворенными своей рабочей средой по сравнению с оставшимися, о чем свидетельствует близкое к значимому значение p и сдвиг между обоими распределениями, которые мы можем извлечь из приведенного выше графика характеристик. Ограничение может заключаться в том, что функция мозаичного графика, вероятно, недостаточно чувствительна, чтобы улавливать небольшие отклонения от случайных частотных распределений - у нас все еще есть небольшой размер выборки, который далее разбивается на комбинацию категорийных уровней, которые мы пытаемся исследовать.

Теперь мы готовим наш набор данных для фактической части моделирования. В качестве первого шага мы удалим все переменные, которые вряд ли будут иметь какую-либо предсказательную силу. Например, идентификатор сотрудника не объясняет каких-либо значимых изменений в текучести кадров, поэтому его следует пока удалить среди некоторых других переменных. Другие примеры включают переменные, которые имеют много общего с другими функциями и, следовательно, могут привести к проблемам мультиколлинеарности (например, почасовая ставка и ежемесячный доход). Мы сохраним сокращенный набор данных, правильно преобразовав все строковые переменные (например, Department) в факторы одновременно.

Интеллектуальное моделирование - устранение переобучения в небольших выборках с помощью перекрестной проверки

Чтобы быть уверенными, что мы не упустили из виду какие-либо сильно взаимосвязанные переменные, мы автоматически обнаружим и удалим их. Для этого мы сначала определяем числовые переменные, вычисляем корреляционную матрицу и находим корреляции, превышающие 0,5.

Итак, действительно есть некоторые переменные, которые были отмечены нашим кодом - нам следует более внимательно изучить: «YearsAtCompany», «JobLevel», «MonthlyIncome», «YearsInCurrentRole» и «PercentSalaryHike».

Проанализировав взаимосвязь этих переменных, давайте изменим список переменных, которые необходимо удалить, и создадим новый фрейм данных, содержащий выбранные переменные:

Уровень занятости тесно связан с возрастом и ежемесячным доходом: вполне вероятно, что чем старше сотрудники становятся, тем выше шансы, что они уже поднялись по карьерной лестнице и зарабатывают значительно больше по сравнению с предыдущими годами. Поскольку мы обсуждали влияние ежемесячного дохода, я бы предпочел опустить уровень работы и возраст, чем нашу переменную дохода.
PercentSalaryHike сильно коррелирует с PerformanceRating, поскольку высокие результаты вознаграждаются деньгами.
Не используйте плитки для лепки

Чтобы наши алгоритмы машинного обучения работали, нам нужно преобразовать эти факторные переменные в фиктивные переменные. Для каждого уровня факторов у нас будет отдельная переменная, указывающая, попадает ли соответствующий участник в эту категорию (например, человек, который редко путешествует, получит 1 вместо 0). Во-первых, мы обнаружим все категориальные переменные, кроме нашей цели (истощение). Затем мы воспользуемся функцией dummyVars каретки, применим ее к нашему набору данных и создадим новый фрейм данных, содержащий выбранный нами набор числовых переменных, фиктивных переменных и истощения (да / нет). Обратите внимание, что dummyVars функции каретки преобразует переменные в полный набор фиктивных переменных, что означает, что будут охвачены все уровни факторов, и ни одна из них не будет исключена - процедура, которая не работает для линейных моделей, для которых всегда сравниваются выходные данные. относительно контрольного уровня (например, если мы хотим сравнить эффект женского пола с перехватом, который представляет мужчин-служащих). Таким образом, наши переменные закодированы в горячем режиме.

Затем мы удалим переменные, которые не обеспечивают никакого прогнозного значения, используя символы вставки рядом с функцией ZeroVar. Он применяется к предикторам, которые имеют только одно уникальное значение (т. Е. «Предиктор с нулевой дисперсией»). Это было бы так, если бы все наши сотрудники были частыми путешественниками, оставив все остальные варианты (редкие или нулевые поездки) пустыми, что создало бы константу в нашей статистической модели. Это также применимо к предикторам, которые имеют только несколько уникальных значений, которые встречаются с очень низкой частотой (например, если 1 из 100 сотрудников будет разведен). Для многих моделей (за исключением моделей на основе дерева) это может привести к сбою модели или нестабильности подгонки. В качестве последнего шага предварительной обработки мы убедимся, что мы правильно упорядочили уровни целевого фактора: я заметил, что в прошлом каретка, похоже, просто принимала первый уровень как положительный класс (например, да против нет, выигрыш против проигрыша и т. д.), что иногда может впоследствии «запутать» матрицу путаницы - например, специфичность и чувствительность могут легко перепутаться. Следовательно, мы хотим убедиться, что фактическая текучесть кадров считается положительным классом, явно присваивая «да», а затем «нет» в качестве уровней факторов нашей переменной выбытия.

Наш последний набор данных очищен и готов к моделированию. Поскольку у нас есть небольшая выборка, мы можем столкнуться с проблемой чрезмерного соответствия нашей модели нашим конкретным данным выборки до такой степени, что мы не сможем применить ее к данным о новых сотрудниках позже. Проблема, которую часто называют переобучением - феномен, который может объяснить, почему мы иногда больше не можем воспроизвести ранее обнаруженные эффекты. Для моделей машинного обучения мы часто разделяем наши данные на наборы для обучения и проверки / тестирования, чтобы решить эту проблему. Обучающий набор используется для обучения модели, а набор для проверки / тестирования используется для проверки ее на данных, которые она никогда раньше не видела. Если бы мы использовали для нашего варианта использования традиционное разделение 80/20, производительность модели во многом зависела бы от случайности, потому что у нас она будет различаться каждый раз, когда алгоритм будет случайным образом выбирать 25 человек для целей тестирования. Эта проблема становится еще более серьезной в нашем случае, потому что у нас есть дисбаланс классов: помните, что только примерно 20% сотрудников покинули компанию - это означает, что наша модель, вероятно, будет протестирована примерно на 5 выпускниках и 20 оставшихся, оставив нас с вопрос, будет ли алгоритм работать одинаково в разных случаях. Кроме того, если бы мы оценили производительность модели, глядя на точность прогноза, результат легко переоценил бы ее фактическую производительность, поскольку есть много положительных примеров в качестве справки (например, сотрудники, которые не уволились). Вы можете узнать больше о том, как разделить данные из небольшого несбалансированного набора данных, в этом интересном «Обсуждении Stackoverflow». К счастью, у нас есть кое-что из нашего набора статистических инструментов: перекрестная проверка с различными разбиениями. Мы применим нашу обученную модель (ы) к новому набору наблюдений и многократно настроим параметры, чтобы уменьшить ошибку прогноза. Для этих «новых наблюдений» нам даже не нужна новая выборка: мы переработаем набор данных, обучив модель набору наблюдений, и будем использовать другую часть данных для тестирования производительности модели. Мы повторим это 5 раз и усредним производительность теста, чтобы получить окончательную оценку производительности нашей модели - метод, называемый 5-кратной перекрестной проверкой. Таким образом, мы можем использовать все наши данные, пока модель все еще тестируется на «новых» случаях.

Различные модели машинного обучения для одной и той же цели

Теперь мы настроим многоразовый объект управления поездом для построения наших моделей машинного обучения с теми же настройками: повторная перекрестная проверка гарантирует, что мы запустим наш 5-кратный процесс перекрестной проверки 5 раз. Более того, мы просим Caret предоставить нам вероятности классов в выходных данных нашей модели, а также окончательные прогнозы, и мы хотим видеть прогресс нашего процесса моделирования (verbose = True). Мы будем использовать встроенный поиск гиперпараметров каретки со стандартными настройками.

Роль классового дисбаланса - выберите подходящую метрику точности для оптимизации

Мы протестируем друг друга в следующих моделях:

Логистическая регрессия. Это широко используемый традиционный алгоритм классификации, который основан на линейной регрессии, которую вы знаете из своего курса статистики, и был первоначально предложен Коксом в 1958 году. Первичный результат прогноза - это оценочная вероятность принадлежности наблюдения к определенному классу. Основываясь на значении вероятности, модель создает линейную границу, разделяющую входное пространство на две области (например, более вероятно да или более вероятно нет).

Случайные леса: базовые деревья решений - это интерпретируемые модели, построенные в виде древовидной структуры: ветви представляют собой комбинации функций, а листья - это интересующие нас ярлыки классов (например, «да» или «нет»). Случайные леса дают нам преимущество перед базовыми деревьями решений, объединяя возможности всех нескольких слабых учеников, чтобы прийти к коллективному прогнозу. Это делает более надежным, чем простые деревья решений, потому что окончательный прогноз не зависит от нескольких влиятельных предикторов.

Экстремальное усиление градиента (XGB): этот метод моделирования представляет собой еще один древовидный метод, представленный Ченом (2014), который основан на деревьях повышения градиента, который представляет собой метод ансамблевого машинного обучения, предложенный в 2001 году Фридманом для регрессии. и в целях классификации. Ключевой характеристикой является то, что они обучаются последовательно - каждое дерево пытается исправить ошибки предыдущего дерева до тех пор, пока не удастся добиться дальнейшего улучшения. XGB часто описывают как более быструю, более масштабируемую и эффективную с точки зрения памяти версию техники по сравнению с деревьями градиентного повышения.

GLMnet: это очень гибкое и эффективное расширение моделей glm, прекрасно реализованное в «R». Он соответствует обобщенным линейным моделям, использующим оценку максимального правдоподобия со штрафами, и, таким образом, уменьшает переобучение, известное из общих регрессионных моделей (например, базовой логистической или линейной регрессии), за счет использования лассо или члена эластичного чистого штрафа. Он известен своей способностью хорошо работать с небольшими выборками, предпочитает простые модели чрезмерно сложным и имеет встроенный выбор переменных.

Наивный Байес: в этой модели используется знаменитая теорема Байеса, поскольку она оценивает вероятность возникновения события на основе предварительных знаний о связанных функциях. Классификаторы сначала изучают совместное распределение вероятностей своих входных данных и выдают результат (например, да или нет) на основе максимальной апостериорной вероятности данной каждой соответствующей комбинации признаков.

Поскольку у нас есть несбалансированная выборка (больше осталось, чем осталось), мы не сможем оценить эффективность модели позже. Поскольку точность - это доля правильно классифицированных случаев из всех случаев, для алгоритма не будет большой проблемой дать нам высокий балл, даже если он просто классифицирует ВСЕ случаи как класс большинства (например, нет). Это более подходящая метрика, если бы у нас было более равномерно распределенные классы, которые были бы так же важны для нас. Но в данном случае мы на самом деле говорим о положительных случаях: вы можете возразить, что более вредно НЕ правильно идентифицировать увольняемых (например, чувствительность или истинно положительный показатель), чем случайно предсказать, что сотрудник уйдет, если человек действительно останется (ложь положительная оценка или 1 - специфичность). Поэтому я хотел бы использовать показатель F1 в качестве показателя точности для оптимизации обучения, поскольку он придает большее значение правильной классификации положительных случаев (например, отток сотрудников) и имеет больше смысла для сильно несбалансированных наборов данных.

Финальный конкурс моделей - позвольте нашим алгоритмам машинного обучения соревноваться!

F1-оценка - это среднее гармоническое значение точности и запоминания:

Точность - это количество правильно классифицированных положительных случаев, деленное на количество всех положительных прогнозов (включая ложные срабатывания, например, сотрудников, которые были идентифицированы как уволенные, но не ушли). Это также называется положительной прогностической ценностью.

Напомнить, с другой стороны, - это количество истинно положительных случаев, деленное на количество всех выборок, которые должны были быть идентифицированы как положительные (например, все фактические выбывшие, даже если не все из них были правильными. идентифицированы). Это также известно как чувствительность в случаях использования двоичной классификации. Если вы еще не получили его, не беспокойтесь, это не так интуитивно понятно, как простая метрика точности. Я надеюсь, что мои визуализации помогут вам понять это. В целом, оценка F1 связана со способностью алгоритма правильно определять положительные случаи.

Поскольку каретка напрямую не предоставляет метрику f1 в качестве опции для нашей функции train, мы будем использовать DIY-код, найденный в «Stackoverflow». Подробнее о показателях точности можно узнать «здесь». Между прочим, не так просто интерпретировать, является ли другой, не наш достигнутый F1-балл «достаточно хорошим», потому что он «сильно зависит от количества действительно положительных случаев в нашей выборке». Поэтому позже мы будем искать модель наивысшего балла F1, которого мы достигли на тех же данных.

Чтобы иметь хорошую базовую модель для сравнения с другими, мы создадим модель логистической регрессии: на основе визуализаций, которые мы создали ранее, и теорий из психологической литературы, мы могли бы предположить, что более высокая удовлетворенность работой защищает от увольнения сотрудников. Кроме того, мы предполагаем, что чем ниже ежемесячный доход, тем выше вероятность того, что сотрудники уйдут из компании, чтобы получить более высокую оплату. Более того, мы думаем, что влияние ежемесячного дохода на текучесть кадров усиливается с каждым уровнем удовлетворенности работой. Для всех других моделей мы добавим все выбранные нами ранее переменные и не будем делать никаких дальнейших теоретических прогнозов. Таким образом, мы можем увидеть, дает ли нам прогнозное преимущество.

… и победитель: XGBoost!

Но прежде чем мы погрузимся в фактическое сравнение моделей, давайте посмотрим, может ли наша базовая модель действительно объяснить увольнение сотрудников на элементарной стадии.

Как и было предсказано нашей гипотезой, можно увидеть, что оценки модели предполагают, что вероятность того, что сотрудник покинет компанию, немного уменьшается с каждым дополнительным ежемесячным доходом в долларах и каждым дополнительным уровнем удовлетворенности работой. Обратите внимание, что оценки не могут быть напрямую интерпретированы, потому что они масштабируются как логарифмические шансы, которые соответствуют нашей формуле логистической регрессии. Срок взаимодействия (сочетание ежемесячного дохода и удовлетворенности работой) также стал статистически значимым (p <0,001).

model_baseline
summary(model_baseline)

Могут ли другие модели с большим набором предикторов лучше прогнозировать текучесть кадров в нашей небольшой выборке? Давай выясним. Сначала мы составим список всех объектов нашей модели (случайный лес, glmnet и т. Д.) И назовем их для использования в будущем. Затем мы воспользуемся функцией resamples из каретки, чтобы построить график производительности моделей по каждой из них. Это даст нам диапазон значений F1 для всех 5 складок, что позволит выбрать модель с наивысшей средней производительностью.

Похоже, что XGBoost превзошел все другие модели, когда дело доходит до его способности правильно классифицировать выбывших, и показал довольно надежную производительность во всех случаях. Наша базовая модель показала довольно изменчивую производительность модели в зависимости от складок, которые использовались для тестирования, из-за чего она казалась немного нестабильной. Однако мы провели здесь некое несправедливое сравнение, сравнив яблоки с бананами: для нашей базовой модели мы использовали теоретически правдоподобную формулу, в то время как мы добавили все переменные-кандидаты в другие модели. В этих случаях мы пытались предсказать отток сотрудников ВСЕМ. Из-за этого трудно судить, вызвана ли производительность модели, скажем, алгоритма случайного леса, слишком сложной формулой или типом самой модели. Я мог бы даже представить, что более простая модель может быть полезной в нашем случае, потому что у нас недостаточно наблюдений, чтобы оправдать такой большой набор предикторов, используемых в нашей модели. Как хорошо отметили Яркони и Вестфол (2017), чем выше вероятность того, что небольшой набор предикторов применяется ко многим наблюдениям, тем меньше вероятность переобучения, представленного в низком соотношении n к p (размер выборки для предикторов). Однако, если у нас есть небольшой набор данных и много параметров, которые все вносят небольшой вклад в результат X, как в нашем первом раунде моделирования, с большей вероятностью мы получим большие ошибки прогнозирования, и разрыв в производительности между обучающим и тестовым набором будет значительным.

Метрики точности нашей базовой модели

Поэтому мы сделаем более справедливое сравнение, продемонстрировав, что произойдет, если вы скажете карету спрогнозировать отток сотрудников с учетом удовлетворенности работой, ежемесячного дохода и их комбинации для всех моделей:

Теперь случайный лес, похоже, больше не показывает худшую производительность, но снова XGB, похоже, наш победитель. Интересно, что оценка F1 охватывает очень похожие значения, такие как наши сложные модели, что говорит о том, что более экономная модель предпочтительнее слишком сложных моделей. Давайте посмотрим, может ли матрица неточностей рассказать нам немного больше о производительности XGB, которая включает нашу простую формулу модели, по сравнению с нашей базовой моделью. Напоминаем, что вот как такая матрица путаницы переносится в нашу проблему.

Вау - прямое сравнение показывает, что XGBoost намного лучше предсказывает отток сотрудников, чем наша базовая модель! Глядя на матрицу необработанной ошибки, мы видим, что XGBoost правильно идентифицировал 17 из 22 выбывших, тогда как базовая модель идентифицировала только 3 из них. Точность нашей модели победителя очень хорошая (0,94), что означает, что она не смешивала истинных увольняемых с поддельными (ложные срабатывания, т.е. сотрудники, которые фактически не покинули компанию, но остались). С другой стороны, базовая модель только что предсказала 4 положительных случая, из которых 3 были правильными, что привело к довольно низкой точности 0,75. Способность правильно определять отток сотрудников становится еще более заметной для других показателей: поскольку алгоритм XGBoost также пропустил 5 истинно положительных случаев и неправильно пометил их как отрицательные, отзыв не слишком высок, но все же приемлем (0,77). Напоминаем, что отзыв - это количество истинно положительных случаев, деленное на количество всех выборок, которые должны были быть идентифицированы как положительные (например, все фактические выбывшие, даже если не все из них были правильно идентифицированы), и также называется чувствительностью. В отличие от этого, базовая модель не была достаточно чувствительной, чтобы выявить истинных уволенных, и по ошибке большинство из них были отмечены как оставшиеся сотрудники.

Метрики точности нашей модели XGBoost

Риск текучести? Создайте стратегию хранения, основанную на данных

Разрыв в производительности также отражается в сбалансированной оценке точности внизу, которая представляет собой баланс между специфичностью и чувствительностью соответствующей модели, что свидетельствует о том, что наша базовая модель неэффективна и в том, что касается правильного определения лояльных сотрудников. Помимо оценки F1, сбалансированная точность была предложена как лучший показатель «точности модели в несбалансированных выборках».

В целом, XGBoost, кажется, дает нам прогнозирующее преимущество по сравнению с простой обобщенной линейной моделью, даже если мы сохраняем наши предикторы постоянными.

В качестве следующего шага мы хотели бы фактически использовать модель для увеличения удержания в нашей небольшой компании. Для этого мы сначала получим индексы сотрудников, которые все еще активны, и спрогнозируем вероятность увольнения этих сотрудников в соответствии с нашей моделью. Затем мы сохраним эти вероятности, а также фактические данные о сотрудниках. Наконец, мы найдем топ-5 сотрудников с наибольшим риском ухода из компании. Чтобы дать компании возможность вмешаться, вероятно, именно этих людей следует нанять в первую очередь, чтобы выяснить, что им нужно, чтобы стать счастливее и как они хотели бы развиваться в будущем. Таким образом, мы сможем решить проблему добровольной текучести кадров. В конце концов, мы дадим менеджерам полный список сотрудников, с которыми нужно поговорить, отсортированный по степени их риска увольнения - в конце концов, это хорошо дать сотрудникам возможность избавиться от конструктивной обратной связи, которая может улучшить рабочий климат.

Учитесь на моих ошибках - То, что я вам еще не сказал ...

Прежде чем открыть для себя красоту синтаксиса data.table, я работал с тибблами, потому что считаю оператор% ›% таким интуитивно понятным инструментом. К сожалению, каретка принимает только кадры данных (или data.tables), но не таблицы, и мне потребовалось много времени, чтобы понять, почему мой код не запускается. Пока я не обнаружил «этот комментарий на github» и не изменил всю часть обработки данных на DT-подобную структуру. Не забудьте преобразовать таблицы в классические фреймы данных перед моделированием с помощью каретки или вообще не используйте dplyr-синтаксис.

Пора задуматься - можем ли мы предсказать текучесть кадров на небольших выборках?

Соответствующие показатели точности имеют огромное значение

Более того, я сначала использовал оценку AUC ROC в качестве метрики для оптимизации, прежде чем обнаружил, что вы также можете заставить ее работать с другими метриками (например, с оценкой F1). Это привело к ужасной производительности модели с показателем чувствительности ниже 0,1 - алгоритмы на самом деле не выявляли положительных случаев (например, фактический отток сотрудников), что могло быть связано с нашим сильно несбалансированным набором данных. Как и предполагалось ранее, сводка модели по-прежнему демонстрировала приемлемые показатели точности, потому что для моделей не было такой большой проблемой, чтобы идентифицировать тех, кто остался, поскольку большинство сотрудников все равно не ушли. Использование более подходящей метрики для оптимизации действительно изменило правила игры и значительно улучшило производительность модели.

Наши результаты сильно зависят от выборки

Прежде чем я установил начальное число для целей репликации при отборе случайных выборок из нашего исходного набора данных IBM HR analytics, я понял, что результаты будут сильно отличаться от образца к образцу. Это было особенно верно для психологических переменных, таких как окружающая среда или удовлетворенность отношениями. Даже если это может показаться вам немного очевидным, подумайте, что это означает для случаев, когда у вас нет доступного большего набора данных, из которого вы можете извлечь подмножество: ваша интерпретация процессов генерации данных (например, какие факторы объяснил бы текучесть кадров) будет сильно необъективным, но у вас еще не будет возможности проверить это из-за отсутствия данных. Это должно заставить нас осторожно делать предварительные выводы об общих закономерностях в природе, прежде чем мы получим возможность доказать их на большей популяции. Кроме того, имейте в виду, что набор данных является вымышленным, поскольку он не содержит реальных данных о сотрудниках отдела кадров, поэтому его не следует использовать в качестве единственного источника для ответов на действительно научные вопросы.

В таком сложном мире, в котором мы живем, данные не являются волшебным ключом к миру, наполненному идеально рассчитанными и действительными решениями, которые облегчают жизнь каждому. Тем не менее, это звучит так круто и продвинуто, когда люди говорят о том, что они используют данные для принятия решений, основанных на фактах. Но если позже алгоритм машинного обучения будет применяться для принятия обоснованных решений в отношении ОДНОГО сотрудника (например, когда он применяется для ранжирования кандидатов из группы соискателей), эта процедура может легко получить неэтичный вкус. При неправильном применении кандидаты рассматриваются уже не индивидуально, а как баллы, оценивающие их вероятность хорошо выполнить свою работу. Используя методы интеллектуального анализа данных, исторические и помеченные данные о сотрудниках могут использоваться для обнаружения функций, которые могут быть связаны с высокой производительностью работы, чтобы впоследствии предсказать вероятность того, что новый сотрудник будет хорошо выполнять свою работу (Mahmoud et al., 2019). Следовательно, данные об эффективности других людей вместе с некоторыми ключевыми показателями (например, IQ, личностные тесты, структурированные результаты собеседований) или их биографические данные служат основой для прогнозирования производительности нового сотрудника (Kluemper, Rosen & Mossholder, 2012; Apatean, Szakacs & Тилька, 2017, Ли, Лай и Као, 2008). Следовательно, алгоритм обучается на данных из прошлого, чтобы предсказывать будущее. Мне это кажется довольно детерминированным, особенно в контексте таких высоких ставок, как заявления о приеме на работу, и к нему следует относиться с осторожностью: модель способна фиксировать ассоциации только в определенный момент времени, даже если они будут динамически меняться от человека к человеку по мере того, как а также в процессе развития организации во времени. Более того, алгоритмы обычно также воспроизводят дискриминационные предубеждения, которые по своей сути представлены в данных (например, принадлежность к женщине может указывать на трудности с получением руководящей должности), что затрудняет обоснование фактического развертывания модели в организации. Таким образом, чтобы избежать негативных последствий со стороны сотрудников, организациям необходимо очень серьезно отнестись к проблеме негативного воздействия на определенные группы или отдельных лиц (например, родителей, чернокожих, беременных женщин и т. Д.). Первый шаг - статистически измерить эти предубеждения и исправить их, чтобы создать справедливый ИИ, который принесет пользу как сотрудникам, так и организации в целом. Вы можете найти больше идей по борьбе с дискриминационными предубеждениями в «статье Эндрю Берта, опубликованной в 2020 году в Harvard Business Review». Эта проблема тесно связана с тем впечатлением, которое организация производит на внешних кандидатов: кандидаты должны иметь разумный шанс убедить команду своими реальными навыками и знаниями без каких-либо предубеждений или ожиданий. Если бы применение алгоритмов машинного обучения для набора персонала было прозрачным, было бы странно получить работу из-за простого сочетания функций, которые оказались факторами успеха для некоторых предшественников. Аналогичная мысль применима к прогнозированию текучести кадров: даже если есть набор характеристик, которые считаются ключевыми факторами оттока сотрудников (последнее повышение заработной платы, командировка, соответствие человека работе, расстояние от дома и т. Д.), Это довольно неплохо. Очевидно, что намерение бросить работу носит сугубо личный характер. С помощью инструментов анализа данных мы можем описывать только общие закономерности на основе совокупности отдельных лиц. Мы даже можем попытаться предсказать поведение на основе этих общих тенденций. Но мы никогда не сможем точно узнать, применимы ли они ко всем. Если аналитика, основанная на данных, может повлиять на жизнь людей (например, решения о приеме на работу, усилия по удержанию…), мы должны оставаться очень осторожными и постоянно сомневаться в правильности наших процедур.

С технической точки зрения я бы сказал, что мы действительно можем использовать машинное обучение для прогнозирования текучести кадров, даже в небольших выборках, если у вас есть полный высококачественный набор данных. Кроме того, мы видели, что когда дело доходит до числа предикторов, более простая и экономная модель может работать по крайней мере так же хорошо, как и сложная модель. Тем не менее, тип модели машинного обучения может иметь огромное значение для точности нашего прогноза. С более широкой точки зрения, мы должны осознавать тот факт, что, как представляется, мы неизбежно фиксируем некоторую степень специфической для выборки ошибки, которая не распространяется на новых сотрудников. Таким образом, не рекомендуется позволять алгоритму самостоятельно определять работу и жизнь людей - как люди, специалисты по обработке данных, менеджеры или специалисты по персоналу, мы должны нести ответственность за решения, принимаемые под нашим контролем.

использованная литература

Есть несколько способов повысить прозрачность нашего подхода, основанного на данных, по отношению к внешним сторонам: если у нас не было сильной гипотезы перед оценкой данных, может быть полезно прямо заявить, что наша работа носит исследовательский характер, потому что наши объяснения несколько постфактум. hoc и, следовательно, может быть предвзятым. Это ограничение также применимо к нашему подходу, поскольку мы визуально проверили потенциальные психологические причины текучести кадров, прежде чем указывать нашу формулу модели. В конце концов, было бы наиболее плодотворно использовать оба мира: исследовать корни и причины, стоящие за данными, расширить наш взгляд на закономерности в данных, которые мы на самом деле изначально не предполагали, и всегда проверить способность модели прогнозировать поведение вне выборки, чтобы минимизировать переобучение. Таким образом, сочетание некоторой степени теоретической гибкости и внимательной интерпретации данных может позволить нам делать хорошие и разумные прогнозы.

Когда вы действительно думаете о развертывании инструментов HR-аналитики в своей организации, конечные пользователи модели должны быть осведомлены о ее преимуществах, а также о ее ограничениях: даже если мы понимаем общие корни, которые увеличивают вероятность текучести кадров, люди как ну, организации по-прежнему довольно уникальны - как и причины для ухода. Следовательно, сочетание личных и практических причин, обуславливающих частую текучесть кадров, может варьироваться от компании к компании и даже меняться со временем. Таким образом, когда применяется прогнозная модель, ее необходимо постоянно оценивать, прежде чем она уже устареет и не допустит серьезных ошибок. Я такой большой поклонник технологий, управляемых данными, и если мы будем использовать их вдумчиво, методы машинного обучения могут стать мощным инструментом для улучшения рабочего места навсегда. Но если мы используем его механически, он легко может стать опасным черным ящиком, которого опасаются критики ИИ, к которому наше общество не должно стремиться. Итак, будем внимательными любителями данных.

[1] А. Хаммерманн и К. Тиле, «People Analytics: Evidenzbasiert Entscheidungsfindung im Personalmanagement» (2019), (№35 / 2019), IW-Report.

Предсказание или объяснение поведения - это разные вещи.

[2] RS Sexton, S. McMurtrey, JO Michalopoulos & AM, Текучка кадров: решение нейронной сети (2005), Computers & Operations Research, 32 (10 ), 2635–2651.

[3] Дж. П. Иссон и Дж. С. Харриотт, Людская аналитика в эпоху больших данных: изменение способов привлечения, приобретения, развития и удержания талантов (2016 г.), John Wiley & Sons.

[4] Л. Бок, Правила работы !: Wie Google die Art und Weise, wie wir leben und arbeiten, verändert. (2016) , Вален.

[5] Ю. Чжао, М.К. Гриневицкий, Ф. Ченг, Б. Фу и Х. Чжу, Прогнозирование текучести кадров с машинным обучением: надежный подход (2018), В Труды конференции интеллектуальных систем SAI (стр. 737–758). Спрингер, Чам.

[6] Т. Яркони и Дж. Вестфол, Выбор предсказания вместо объяснения в психологии: уроки машинного обучения (2017), Perspectives on Psychological Science, 12 (6 ), 1100–1122.

[7] А.А. Махмуд, Т.А. Шавабке, В.А. Саламех и И. Аль-Амро, Прогнозирование эффективности в процессе найма и служебная аттестация с использованием машинного обучения (2019), In 2019 10-я Международная конференция по информационным и коммуникационным системам (ICICS) (стр. 110–115). IEEE.

[8] Д. Х. Клюемпер, П. А. Розен и К. В. Моссхолдер, Веб-сайты социальных сетей, рейтинги личности и организационный контекст: больше, чем кажется на первый взгляд? (2012), 1. Журнал прикладной социальной психологии, 42 (5), 1143–1172.

[9] A. Apatean, E. Szakacs & M. Tilca, Приложение на основе машинного обучения для набора персонала (2017), Acta Technica Napocensis, 58 (4 ), 16–21.

[10] YM Li, CY Lai и CP Kao, Объедините черты личности с машиной опорных векторов, чтобы добиться качественного соответствия найма персонала (2008), В 4-й международной конференции по бизнесу и информации (стр. 1–11).

[11] Т. Чаморро-Премузич, Д. Уинсборо, Р. А. Шерман и Р. Хоган, Новые сигналы талантов: блестящие новые объекты или дивный новый мир (2013 г.), Ind. Organ. Psychol. Перспектива. Sci. Практик., 53: 1689–1699.

[12] Э. Фалягка, К. Рамантас, А. Цакалидис и Г. Цимас, Применение алгоритмов машинного обучения в онлайн-системе найма (2012 г.), In Proc. Международная конференция по Интернету и веб-приложениям и службам (стр. 215–220).

[13] М. Лой, People Analytics должна приносить пользу людям. Этический анализ алгоритмических систем, управляемых данными в управлении человеческими ресурсами (2020), Algorithmwatch.

[14] Н.Б. Яхия, Дж. Хлель и Р. Коломо-Паласиос, От больших данных к глубоким данным для поддержки аналитики персонала для прогнозирования увольнения сотрудников (2021 г.), IEEE Access, 9 , 60447–60458.

[15] Г. Харден, К.Г. Боаке и С. Райан, Намерение текучести специалистов в области технологий: перспектива теории социального обмена (2018), Журнал компьютерных информационных систем, 58 (4), 291–300.

[16] Дж. Саркар, Связь оплаты труда и текучести кадров: ретроспектива и будущие направления (2018), Журнал организационного поведения IUP, 17 (1).

[17] P.C. Bryant & DG Allen, Компенсация, льготы и текучесть кадров: кадровые стратегии для удержания лучших талантов (2013 г.), Обзор компенсаций и льгот, 45 (3), 171– 175.

[18] RD Zimmerman, BW Swider и WR Boswell, Synthesizing content models of текучесть кадров (2019), Управление человеческими ресурсами, 58 (1), 99–114 .

[19] А. Б. Баккер и Э. Демерути, Модель рабочих требований и ресурсов: современное состояние (2007), Журнал управленческой психологии.

[20] Т. А., Бирч, Ф. Ф. Чанг и Э. Ван Эш, Теория социального обмена для понимания взаимосвязи характеристик работы и результатов работы: посредническая роль выполнения психологического контракта. (2016), Международный журнал управления человеческими ресурсами, 27 (11), 1217–1236.

[21] М. Кун, Дж. Винг, С. Вестон, А. Уильямс, К. Кифер, А. Энгельхардт.,… И М. Бенести, Пакет 'caret' (2020), The R Journal , 223.

[22] Б. Л. Дас и М. Баруа, Удержание сотрудников: обзор литературы (2013), Журнал бизнеса и управления, 14 (2), 8–16.

[23] Т. Чен и Гестрин, «Xgboost: масштабируемая система повышения качества дерева» (2016), В материалах 22-й международной конференции acm sigkdd по обнаружению знаний и интеллектуальному анализу данных (стр. 785–794) ).

Аналитика человеческих ресурсов - можем ли мы предсказать текучесть кадров с помощью каретки в R?

Тестируйте различные алгоритмы машинного обучения на малых и средних предприятиях (МСП), обращая внимание на алгоритмические ошибки.

Аналитика человеческих ресурсов - можем ли мы предсказать текучесть кадров с помощью вставки в R?