Недавно друг, окончивший бизнес-школу, попросил нас дать надежный показатель их потенциального дохода. Мы были удивлены, обнаружив, что в сети не существует простых ресурсов. Поэтому мы создали первую краудсорсинговую систему оценки заработной платы. Вот как мы это сделали.

Данные: когда все выше среднего

Изначально мы думали собрать данные с других сайтов о вакансиях в качестве отправной точки. К сожалению, эти ресурсы в основном отстой. Кто-то завышает зарплату для рекламы, кто-то занижает, чтобы помочь HR-менеджерам в переговорах. Вместо того, чтобы пытаться распутать эти предубеждения, мы решили использовать наши сильные стороны: мы собрали данные от наших замечательных пользователей с помощью этого циклического метода:

  1. Дайте пользователям нашу оценку заработной платы, когда вы загружаете свое резюме
  2. Попросите пользователей подтвердить оценки заработной платы или внести исправления
  3. Переобучить модель

На момент публикации этой статьи мы получили более 25 000 отчетов о заработной плате. Спасибо! В настоящее время мы работаем над шестым проектом нашей модели, и мы продолжаем быстро итерации.

Результаты: Математические задачи Mo Money

Мы протестировали множество факторов, и в настоящее время мы регрессируем три, которые оказывают сильно прогностическое значение. Работа от наименее к наиболее прогнозируемому:

1.География. Неудивительно, что близость к богатым почтовым индексам является хорошим предиктором заработной платы. P-значение в настоящее время находится на респектабельном уровне 0,056.

2. Оценка RezScore: В качестве хорошего подтверждения нашей тяжелой работы, хорошая оценка RezScore является немного лучшим прогнозом заработной платы, чем география, с p-значением 0,045.

3. Байесовский фильтр.Мы обучили байесовский фильтр (метод, обычно используемый для сортировки спама в электронной почте) для оценки вероятности того, что зарплата в резюме будет «выше среднего» или «ниже среднего». (Технически ниже среднего было зарезервировано для 5-33-го процентиля, а выше среднего для 67-го-95-го процентиля.) Этот метод оказался наиболее эффективным. Мы представляем здесь необработанные результаты для поклонников регрессии:

Обсуждение: нам не нужно никакого образования

Внимательные читатели заметят, что мы настроили нашу модель так, чтобы наш средний доход был примерно на 10 000 ниже заявленного дохода. Точно так же, как данные о заработной плате, сообщаемые корпоративными источниками, подвержены предвзятости, так же как и данные, сообщаемые пользователями. Мы обнаружили, что пользователи склонны завышать оценку своей зарплаты в диапазоне от 5 до 20 000 долларов. Сначала мы предположили, что это из-за склонности соискателей преувеличивать правду. Тем не менее, есть более мягкое объяснение, которое заключается в том, что люди в режиме поиска работы с оптимизмом смотрят на то, что их следующий карьерный шаг будет сопровождаться повышением заработной платы.

Некоторые из отвергнутых источников данных удивили нас. Уровень образования был поразительно плохим предиктором заработной платы. Мы наблюдали только 20% корреляцию с уровнем образования пользователей и их заявленной зарплатой.

Кроме того, мы обучили базовые модели глубокого обучения и протестировали прогноз в качестве операнда в нашей регрессии. Результаты в настоящее время не являются предсказуемыми, но мы ожидаем, что по мере накопления большего количества данных появятся лучшие результаты.

Вывод:

На момент публикации 80% наших пользователей получают расчеты зарплат с точностью до 10% от их фактической зарплаты. Такая точность возможна только потому, что вы помогли нам создать RezScore как ресурс, поддерживаемый сообществом. Мы снова обращаемся к вам за помощью: если вы заинтересованы в науке о данных, пожалуйста, свяжитесь с нами и поделитесь своими мыслями о том, как улучшить нашу оценку.

Вместе мы преодолеем трудности поиска работы. Пожалуйста, помогите нам, подтвердив оценку своей зарплаты на RezScore.