Ноу-хау: подготовка вашего проекта к собеседованию с дата-сайентистом.

Проект HR-аналитики:

Это проект, направленный на минимизацию текучести кадров в компании. Мы использовали логистическую регрессию для моделирования и решения этой бизнес-задачи. Однако мы здесь не для того, чтобы обсуждать проект. Скорее, мы здесь для того, чтобы обсудить типы вопросов, которые задают на собеседованиях по науке о данных, когда вас просят объяснить ваш проект.

Этот список вопросов подготовит вас к тем вопросам, которые может задать интервьюер, чтобы лучше понять ваш проект. Вопросы общие, поэтому подумайте об ответах с точки зрения вашего собственного проекта.

Какую бизнес-проблему вы пытались решить с помощью своего проекта?

Бизнес-проблемой здесь является высокий уровень текучести кадров в компании. Высокая текучесть кадров оказывает негативное влияние на сотрудников. Кроме того, существуют высокие затраты на обучение новых сотрудников, а также на процесс найма. Существующие проекты также задерживаются, когда сотрудники уходят между ними.

Как бизнес-задача была преобразована в проблему анализа данных?

Первое, что нужно было сделать, это определить особенности, вызывающие высокую текучесть кадров в организации. Только если мы сможем определить причины высокой текучести кадров, мы сможем понять и удовлетворить потребности сотрудников, которые склонны увольняться, создавая тем самым здоровую среду.

Каким образом были собраны соответствующие данные для решения этой проблемы? Было ли достаточно данных? Если нет, то чего не хватало?

Данные, которые требуются в этом случае, — это данные сотрудников. Обычно у компании будет достаточно данных о сотрудниках. Кроме того, у менеджеров были данные о сотрудниках, время прихода и внутренние данные, например, как долго сотрудник работает в организации, кто является текущим менеджером, как долго он был в конкретном проекте и под конкретного менеджера и т.д.

да, данных было достаточно, только проблема была в том, что у нас были данные всего за пару лет.

С какими проблемами пришлось столкнуться в отношении данных, необходимых для анализа для решения бизнес-задачи?

Здесь мы столкнулись с парой проблем. Входящие и исходящие тайминги данных имели тайминги в разных форматах. Также в некоторых случаях отсутствовали некоторые тайминги. Это может произойти, когда сотрудник забывает провести пальцем внутрь или наружу. Помимо этого, еще одной очень распространенной проблемой была точность данных и их точность. Например, у человека, присоединившегося к организации недавно, будет обновлен его общий опыт, однако у человека, присоединившегося к организации 3 года назад, общий опыт не будет обновлен. Для этого нам пришлось пересчитать точные цифры опыта с даты вступления.

Как решались проблемы с качеством данных? Что было сделано с пропущенными значениями? Какой метод вменения пропущенных значений был использован? Почему его использовали?

Также было довольно много отсутствующих данных. например, отсутствующие данные о входе-выходе, о которых мы говорили ранее, можно обработать, заменив потраченные часы его средним рабочим временем. Некоторые переменные имели значения NA, но поскольку это был очень минимальный объем данных, мы опустили эти данные.

Мы могли бы также заменить значения средними или медианными значениями, но, поскольку у нас менее 1% отсутствующих данных, мы предпочитаем игнорировать их вместо того, чтобы вменять им неизвестные данные.

Что насчет аутсайдеров? Вы их удалили или нет? Каковы были причины того, что вы сделали с выбросами? Были ли повторяющиеся значения?

Было несколько выбросов, которые мы выявили во время одномерного анализа. например, возраст сотрудников, имеющих значения больше 55 или меньше 18 лет, кажется выбросом. Кроме того, общий опыт человека должен быть пропорционален его/ее возрасту. Для возраста сотрудников мы создали бины, тем самым преобразовав непрерывные переменные в категориальные переменные. Таким образом, мы могли не угадывать точный возраст сотрудника, вместо этого мы заменили его категориальными переменными, такими как молодые, средние или старшие сотрудники.

Было три строки, которые были дубликатами. Мы идентифицировали их на основе первичного ключа, т. е. идентификатора сотрудника, и удалили эти строки.

Имеются ли данные в правильном формате для применения алгоритмов машинного обучения?

В этом случае мы решили использовать логистическую регрессию. Однако логистическую регрессию нельзя использовать для категориальных переменных. Для этого нам пришлось преобразовать категориальные переменные в фиктивные переменные в рамках метода сокращения переменных.

Требуется ли стандартизация? Если да, то зачем это нужно? Если нет, то почему не требуется? Как насчет разработки функций, таких как логарифмическое преобразование или экспоненциальное преобразование?

Да, мы использовали технику масштабирования для стандартизации переменных. Это особенно полезно, когда у нас есть непрерывные данные по разным единицам. Это также помогает уменьшить дисперсию данных.

Методы разработки признаков, такие как логарифмическое преобразование и экспоненциальное преобразование, используются, когда у нас есть нелинейная связь между рассматриваемой переменной и целевой переменной, и мы хотим преобразовать данные в линейную зависимость.

Как вы определили, какой алгоритм выбрать для этого проекта? Был ли это линейный или нелинейный алгоритм?

Логистическая регрессия - это линейный алгоритм. Мы выбрали логистическую регрессию, потому что целевая переменная, которая у нас была, то есть собирается ли сотрудник уволиться или нет, является бинарной переменной. Кроме того, мы стремились выяснить линейную связь между переменными-предикторами и логарифмическими шансами Y.

Почему был использован линейный или нелинейный алгоритм? Как вы проводили сравнительную оценку различных алгоритмов? Как проводилась настройка гиперпараметров?

Линейные алгоритмы легко реализовать. Большинство наших проблем, с которыми мы сталкиваемся, носят линейный характер. Согласно исследованиям, 90% из 80% проблем, которые нам нужно решить, могут быть решены с помощью линейного моделирования. а нелинейное моделирование может решить 75% из 95% проблем. Таким образом, если мы решаем 15% проблем, которые могут быть решены с помощью моего нелинейного моделирования, но не могут быть решены с помощью линейных моделей, то это следует делать только для нелинейного алгоритма.

Сказав это, если у нас действительно есть проблема, связанная с нелинейной связью между целевой переменной и предикторами, то мы можем продолжить работу с алгоритмом на основе дерева. Алгоритм на основе дерева даст лучшие результаты по сравнению с логистической регрессией, если имеющиеся данные носят нелинейный характер.

Бенчмаркинг был выполнен после сравнения дерева решений, случайного леса и метода логистической регрессии, основанного на некотором общем методе оценки.

Настройка гиперпараметров — это метод выбора оптимизированного набора значений для гиперпараметров, который дает наилучшие результаты. Гиперпараметры отвечают на такие вопросы проектирования модели, как следующие:

1. Какую степень полиномиальных признаков следует использовать для моей линейной модели.

2. Какой должна быть максимальная глубина для моего дерева решений.

3. Сколько деревьев я должен учитывать для моей модели случайного леса.

Как вы узнали, была ли ваша модель недостаточной, чрезмерной или лучшей для данных?

Если результаты очень плохие, когда мы запускаем модель на самих обучающих данных, это указывает на то, что модель не соответствует. Если оценка модели на обучающих данных очень хорошая, но при выполнении модели на тестовых данных результаты плохие, то это указывает на переоснащение модели. Если модель одинаково хорошо работает с известными и неизвестными данными, то модель является примером наиболее подходящей модели.

Были ли данные разделены на обучающие и тестовые наборы? Проводилась ли перекрестная проверка?

Да, данные были разбиты в соотношении 70:30, на обучающие данные и тестовые данные. Также метод k-fold использовался для перекрестной проверки данных, чтобы получить представление о том, как модель работает с неизвестными данными.

Какой показатель был выбран для этого проекта? Почему был выбран именно этот показатель? Почему не другие? Была ли выбранная метрика максимальной или минимальной?

Для этого проекта мы использовали матрицу путаницы в качестве меры для оценки модели логистической регрессии. Матрица путаницы имеет следующие параметры.

1. Точность

2. Чувствительность

3. Специфика

4. Точность (положительное прогнозируемое значение)

Фото: www.analyticsvidhya.com

Чувствительность и специфичность обратно пропорциональны друг другу. Таким образом, значения должны быть сбалансированы так, чтобы точность была высокой, и в то же время чувствительность и специфичность были близки друг к другу.

Каков конечный результат вашей модели по выбранной метрике или метрикам?

Окончательный результат модели дал нам различные параметры, влияющие на уровень текучести кадров в компании, и именно на эти параметры компания должна обратить внимание, чтобы снизить коэффициент текучести кадров.

Как ваша модель влияет на бизнес? Как это повлияло на верхнюю или нижнюю строчку?

Эта модель поможет компании сохранить своих сотрудников. В то же время сотрудники также будут чувствовать, что об их потребностях заботятся, что повышает доверие сотрудников. Это окажет положительное влияние и на текущие проекты внутри организации. В целом это внесет огромный вклад в развитие организации.

Надеюсь, поможет !! Поделитесь своими комментариями и мнениями.