Как мы используем данные и машинное обучение для оптимизации конверсии и помощи пользователям в росте

Это ЧАСТЬ 1 из четырех частей, в которой представлен обзор проблем, с которыми мы столкнулись, и решений, которые мы создали для поддержки конверсии пользователей. Остальные платежи:







Эта статья построена следующим образом:

1) Мотивация: влияние конверсии основного пользователя на бизнес.

2) Конверсия основного клиента: как мы используем данные и машинное обучение для оптимизации клиентской воронки.

3) Основная конверсия фрилансера: как мы оптимизируем фрилансерскую часть воронки продаж.

Влияние конверсии основных пользователей на бизнес

Типичная воронка, через которую проходят пользователи Upwork, проиллюстрирована ниже.

  • Посетители попадают на наш сайт через различные целевые страницы.
  • Они подписываются, если им нравится то, что они видят
  • На начальной фазе воронки наши клиенты-пользователи привлекают своего первого фрилансера, а наши фрилансеры подписываются на свой первый проект.
  • На этапе роста фрилансеры берут на себя больше работы, а клиенты привлекают больше фрилансеров для создания своей команды.

Мы видим, что создание ценности достигается на каждом этапе конверсии. Воздействие особенно велико, когда нам удается привлечь основных пользователей, то есть, когда мы переводим пользователей из начальной фазы в фазу роста, мы генерируем дополнительную ценность в 25 раз. В нашем бизнесе эта небольшая группа основных пользователей, составляющая лишь ~ 20% населения, фактически приносит ~ 80% наших доходов.

Оказывая влияние на бизнес, группа специалистов по науке о данных может помочь решить основную проблему: выявить модели поведения, которые характерны для основных пользователей, и сформулировать решения по машинному обучению и оптимизации, способствующие такому поведению.

Часть 1.1: Как мы используем данные и машинное обучение для повышения конверсии основных клиентов на каждом этапе воронки

Иллюстрированная воронка представляет собой обзор некоторых из последних усилий, которые мы преследовали, и показателей конверсии, которые мы надеемся улучшить на клиентской стороне нашей воронки.

Подписаться

Для потенциального клиента, желающего изучить рынок услуг, такой как Upwork, основной мотивацией является подбор персонала. Мы предполагаем, что клиент приходит с намерением нанять, и он зарегистрируется, если у Upwork найдутся подходящие фрилансеры, которые смогут выполнить ее проект.

Исходя из этого предположения, мы создали приложения для конверсии регистрации клиентов, как показано ниже:

В общем, мы можем сформулировать это как проблему понимания намерений пользователя и нахождения результатов, соответствующих этому намерению. Хотя понятие релевантности имеет нюансы в контексте рынка услуг, это можно сопоставить с основной проблемой поиска, которая хорошо изучена в литературе по информационному поиску.

Одна из распространенных стратегий состоит в том, чтобы представить ее как задачу оптимизации ранжирования по спискам (обучение ранжированию по спискам) и решить ее с помощью деревьев с усилением (LambdaMART). Чтобы это работало эффективно, нам нужны данные / метки, которые различают результаты с точки зрения детализированных уровней релевантности (например, очень релевантный, релевантный, отчасти релевантный, нерелевантный).

В качестве альтернативы мы также можем решить ее как задачу прогнозирования рейтинга кликов (CTR), для которой существует множество известных решений, основанных на классификации (прогнозирование кликов по сравнению с отсутствием кликов) или регрессии (прогнозирование фактический рейтинг кликов). Мы называем решения этого типа односторонним соответствием, чтобы подчеркнуть здесь, что нам «только» нужно оптимизировать для посещающего пользователя.

Решение этой проблемы развивалось с годами: во-первых, мы начали с формулы ранжирования, которая состоит из множества компонентов, включая релевантность текста (TFIDF-подобие) и жестко запрограммированные эвристики для понижения в должности (серый список) и продвижения (на основе рейтинга фрилансера, рейтинги, отработанные часы). Это было сложно поддерживать, и он не предназначен для изучения и улучшения на основе отзывов пользователей.

Теперь наше решение реализовано в виде двухпроходного подхода:

  1. Во-первых, мы применяем ориентированную на отзыв формулу, которая объединяет релевантность текста с моделью не зависящей от запроса (все прогнозы вычисляются в автономном режиме и записываются в индекс), чтобы быстро генерировать кандидатов.
  2. Затем мы повторно ранжируем лучших кандидатов, используя более продвинутые функции (сигналы для запросов и пользователей, полученные из потоков данных в реальном времени) для повышения точности .

В качестве примера специфичных для запроса функций мы используем слово сходство на основе встраивания между запросом и профилем фрилансера. Для построения модели первого прохода мы используем логистическую регрессию для определения CTR. Повторное ранжирование во втором проходе основано на LambaMART и развернуто с использованием функции Повторное ранжирование SOLR. Что касается ярлыков релевантности, мы используем разные типы кликов (кликнувшие результаты и кликнувшие результаты с задержкой ›20 секунд против кликов для регистрации).

В результате этой работы мы видим значительные улучшения в:

  1. Легкость обслуживания
  2. Вовлеченность посетителей (CTR, показатель отказов, показатель регистрации) и
  3. Основные показатели успеха бизнеса (количество и пожизненная ценность регистраций)

Хотите узнать больше? Пожалуйста, свяжитесь с членами нашей команды, работающими над этими усилиями:

- Артем Москвин, Иван Портянко, Йонгтао Ма: ранжирование на основе машинного обучения для поиска и просмотра на сайтах посетителей Upwork.

Начинать

Процесс преобразования найма, который мы стремимся поддержать на начальном этапе, варьируется от размещения вакансии до поиска, сравнения и привлечения фрилансеров, чтобы повысить вероятность того, что фрилансеры выполнят свою работу.

Мы создали три приложения, чтобы помочь клиентам начать прием на работу:

  • Помощь в создании вакансий
  • Поиск, рекомендации и рейтинг предложений фрилансеров
  • Комплексное моделирование клиентов под названием «Состояния найма клиентов».

Сопровождение публикации вакансий

Публикация значимой и интересной вакансии, которую фрилансеры могут найти и захотят подать предложение, - нетривиальная задача на таком сложном рынке, как Upwork.

Мы обнаружили, что самые большие проблемы включают

  1. Как определить категорию вакансий (Upwork поддерживает постоянно расширяющийся список из сотен категорий должностей, также называемых услугами) и
  2. Как понять компромисс между стоимостью и требованием к уровню знаний и, в конечном итоге, как установить бюджет для рабочих мест.

Чтобы решить эти проблемы, мы развернули приложения, показанные ниже:

Для решения последней проблемы, то есть для расчета и отображения диапазонов бюджета для желаемого уровня знаний, мы используем огромный объем исторических данных о вакансиях, проектах и ​​ценах.

Однако, возможно, из-за отсутствия руководства, как мы обнаружили, исторически клиенты испытывают трудности с оценкой уровня квалификации для своей должности. Например, мы обнаружили, что для всех вакансий, в тексте которых клиенты упоминают «эксперт по машинному обучению», только ~ 40% из них имеют «уровень эксперта» в качестве требования. Остальные публикуются как вакансии начального или среднего уровня.

Таким образом, мы не можем полагаться исключительно на требования к уровню, указанные нашими клиентами, но должны найти альтернативный способ определения уровня знаний, необходимого для каждого проекта.

Мы предполагаем, что наиболее важным является фрилансер (ы), которых клиент в конечном итоге привлек для проекта. Поэтому мы используем уровень квалификации привлеченных фрилансеров как основу для расчета ценового диапазона. Но с этим мы только переместили проблему к проблеме определения уровня знаний фрилансеров.

(Мы обсудим наши технические решения для моделирования различных аспектов наших фрилансеров, включая уровень опыта и репутацию на основе удовлетворенности клиентов, в разделе, посвященном конверсии основных фрилансеров.)

Проблема прогнозирования категории должности решена в рамках наших более масштабных усилий по пониманию запросов и текстов, которые мы обсудим далее.

Поиск, рекомендации и рейтинг предложений фрилансеров

Как мы можем выявить фрилансеров, у которых больше всего шансов быть привлеченным клиентом? Такое воздействие достигается за счет точек соприкосновения как с клиентами, так и с фрилансерами, как показано ниже.

Одна из основных проблем при поиске - это понимание текста и запроса. Мы применяем гибридный подход, комбинируя современные скрытые представления семантики (fastText, BERT) с нашими внутренними усилиями по созданию онтологии Upwork, которая нацелена на то, чтобы де-факто стать эталоном для явных знаний. представительство в онлайн-мире труда. Используя онтологию, мы можем сопоставить строки с вещами (концепциями онтологии), которые являются клиентами, фрилансерами, агентствами, профессиями, результатами, навыками и т. Д. Как показано ниже, мы сначала применяем этап связывания сущностей, используя Википедия, чтобы понять ввод текста (поисковые запросы, профили, сообщения) с точки зрения сущностей Википедии. Приближаясь к этому шагу, мы можем далее различать задачи (1) получение информации о сущностях с помощью Wikipedia Miner, (2) удаление сущностей, не связанных с миром труда, (3) и применение общих шагов упомянуть обнаружение, создание ссылок и устранение неоднозначности сущностей, чтобы связать текст с сущностями Википедии (на основе повторной реализации X-Lisa). Используя сопоставления между Онтологией Upwork и Википедией, которые мы вычисляли автоматически и частично проверяли вручную, вещи, распознаваемые из текстов, наконец, представлены как концепции Онтологии Upwork. Проблема, с которой мы столкнулись, - это категоризация запросов. Например, если запрос касается мобильной разработки, цель состоит в том, чтобы вывести список топ-k категорий, которые должны включать мобильную разработку и другие связанные категории. Мы обнаружили, что как неконтролируемые (Word2Vec), так и контролируемые вложения слов (fastText) плохо работают с хвостовыми запросами из-за их зависимости и отсутствия данных обучения. Точность для всего набора запросов в значительной степени улучшается, когда мы объединяем выходные данные fastText с результатами нашей семантической службы, которая выводит информацию о категории на основе связанных сущностей.

Понимание запросов с точки зрения сущностей и категорий позволяет создавать индивидуальные стратегии поиска на основе онтологий, например специальные сопоставители и рейтинги по имени, местоположению и навыкам. Например, мы потратили значительные усилия на внедрение сопоставления на основе навыков. При наличии вакансии задача состоит в том, чтобы выделить ключевые термины и требования к навыкам для поиска и ранжирования фрилансеров, которые (1) обладают соответствующими навыками, (2) их навыки проверены клиентами на Upwork и (3) четко представляют и объясняют совпадения. нашим клиентам. На скриншотах ниже показан пример соответствия на основе навыков в действии. Решение этой проблемы - кульминация долгой работы, которая началась с извлечения ключевых терминов для сообщений о вакансиях через связывание сущностей. Затем мы научились выводить категории и навыки из должностей. Самая интересная задача заключалась в проверке / проверке и количественной оценке навыков фрилансера на основе их предложений и истории работы. Мы решили ее как задачу вероятностного генеративного моделирования в стиле TrueSkill 2, где каждая работа рассматривается как соревнование с участием клиентов. Как показано ниже, представление навыков профиля фрилансера включает (1) подтвержденные навыки, которые, по утверждению фрилансера, имеют, (2) навыки, выведенные из его профиля, (3) и навыки, подтвержденные в его истории работы. Мы включили все это в модуль семантического поиска, который был реализован как расширение SOLR, нашего стандартного механизма поиска. В результате мы получаем вещи, а не строки: вместо того, чтобы представлять фрилансеров, которые были текстовыми совпадениями с объявлением о вакансии, мы значительно увеличили вовлеченность клиентов и приглашаем, когда они видят проверенных фрилансеров, которые должны пройти квалификацию на основе неявных сигналов, связанных с конкуренцией.

На сайте для посетителей мы были полностью сосредоточены на клиенте и оптимизировались для конверсии регистраций. Но теперь, чтобы помочь клиенту нанять, мы хотим найти фрилансеров, которые соответствуют их требованиям к работе, и мы также хотим, чтобы они были заинтересованы в этой работе. Известные методы поиска и рекомендаций эффективны для создания односторонних решений, но для поддержки этого их необходимо расширить, чтобы решить проблему двустороннего сопоставления. Помимо требований клиента и требований к работе, хорошее соответствие учитывает интерес фрилансеров, чтобы приглашения клиента на работу были хорошо приняты, фрилансеры, с которыми она проводила собеседование, были очень привлекательными, а те, кого она нанимала, могли выполнять работу так, как ей нравится. . Архитектура машинного обучения, предложенная и применяемая к этой проблеме в Upwork, основана на построении отдельных моделей для предпочтений как клиентской, так и внештатной сторон и построении двухуровневой модели ранжирования. Помимо архитектуры модели, мы находим ключи к улучшению в извлечении пользовательских предпочтений, а также в сопоставлении и кодировании функций парных предпочтений.

От приема на работу к выполнению и вмешательству на работе

Успешный старт должен выходить за рамки найма. Наша цель - оказать поддержку успешному выполнению работы. С этой целью мы проводим комплексное моделирование клиентов под названием Состояния найма клиентов:

  • Качество работы и намерения клиента: используя заявки о приеме на работу как сигнал интереса фрилансера и собеседование как сигнал намерения клиента, мы построили модели классификации, чтобы сделать вывод о том, хочет ли клиент написать привлекательную вакансию и готов ли он к найму.
  • Заполнение: учитывая клиента, вакансию и пул соискателей, мы строим модель для прогнозирования вероятности того, что вакансия будет заполнена, и их величины изменения, если мы добавим в пул соискателей определенного типа.
  • Отток: учитывая взаимодействие нанятого фрилансера и среднего звена работы, мы прогнозируем риск оттока клиентов, используя известные сигналы низкой удовлетворенности и оттока в качестве целевой модели (нанять, но не тратить, тратить, но нет обратной связи).

Учитывая это понимание нашего клиента, мы внедряем целевые политики (поддержка и вмешательство с высокой степенью взаимодействия), чтобы напрямую увеличить вероятность заполнения и снизить риск оттока.

Хотите узнать больше? Пожалуйста, свяжитесь с членами нашей команды, работающими над этими усилиями:

- Ева Мок, Джордж Барелас, Лей Чжан, Куанг Хиеу Ву, Сиддхарт Кумар, Спирос Капниссис, Тхань Тран: понимание текста и запросов - как мы используем граф знаний, связывание сущностей и семантическую маркировку текста в Upwork.

- Eva Mok, George Barelas, Lei Zhang, Quang Hieu Vu, Silvestre Losada, Thanh Tran: семантический поиск - сопоставление по категориям и навыкам через SOLR.

- Пабло Селайес, Сибо Лу: Моделирование клиентов - как мы фиксируем состояние найма наших клиентов и помогаем им нанимать.

Расти

Мы помогаем нашим клиентам расти, отправляя им рекомендации по расширению их круга фрилансеров, которые подходят для различных должностных функций (перекрестные продажи) и уровня должности (дополнительные продажи). Примеры рекомендаций приведены в электронных письмах ниже.

Для вычисления сходства фрилансера мы используем стандартные встраивания текста (Word2Vec, Doc2Vec) для текстовой части, а также используем журнал кликов пользователя и контекст с богатой графической структурой, который мы можем извлечь из этого, чтобы изучить встраивание объектов. . Мы обнаружили, что это прогресс по сравнению с традиционной совместной фильтрацией, основанной на «похожих товарах», таких как «пользователь, который купил это, также купил», где поведение отдельного пользователя (например, покупка) формирует основу подобия. При таком подходе к обучению внедрению объектов с использованием нейронных сетей мы изучаем распределенное представление объектов (например, фрилансеров, приложений, навыков и т. Д.), Чтобы фиксировать сходство с разных точек зрения. При применении рекомендации фрилансера сходство между двумя фрилансерами A и B основано на:

  1. A и B были нажаты, просмотрены или сохранены в одном сеансе.
  2. A и B были нажаты, просмотрены или сохранены для одного и того же поискового запроса.
  3. А и Б нанимали на работу, требующую одинаковых навыков.

Журнал кликов, который мы используем для (1 + 2), в основном представляет собой данные последовательности, поэтому мы применяем Deepwalk в качестве метода обучения встраиванию. Для (3) мы обнаружили, что LINE более эффективен, учитывая, что данные представляют собой плотно связанную сеть.

Мы также разработали модель для конкретного клиента, предсказывающую его следующую работу и навыки, необходимые для этой работы. Мы формулируем прогноз навыков как проблему вероятностного вывода: какова вероятность, что клиент опубликует вакансию с навыком X (future_skill), если он ранее разместил вакансию с навыком Y (прошлый_скилл)? Хотя мы можем не знать этого для конкретного клиента, мы можем учиться на поведении других клиентов и делать обоснованное предположение с помощью байесовского вывода:

P (future_skill | past_skill) = P (past_skill | future_skill) * P (future_skill) / P (past_skill),

где вероятность P (past_skill | future_skill) и априорные P (future_skill) / P (past_skill) оцениваются на основе данных, основанных на всех исторических рабочие места и их навыки.

Хотите узнать больше? Пожалуйста, свяжитесь с членами нашей команды, работающими над этими усилиями:

- Лэй Чжан: обучение встраиванию для фрилансеров, рабочих мест и других объектов в мире труда.

- Артем Москвин, Йонгтао Ма: Взаимодополняемость и взаимозаменяемость услуг и навыков на рынках труда.

Часть 1.2: Использование данных и машинного обучения для повышения конверсии основных фрилансеров

Обзор наших усилий по привлечению основных фрилансеров представлен здесь.

Подписаться

Подобно конверсии регистрации на стороне клиента, мы сталкиваемся с проблемой одностороннего соответствия, когда цель состоит в том, чтобы предоставить нашим фрилансерам подходящие вакансии. Мы предполагаем, что для фрилансера, который регистрируется, он хочет видеть, что Upwork предоставляет широкий спектр вариантов для гибкой работы, от подработки с низкими обязательствами до постоянных и долгосрочных удаленных вариантов с заработком, сопоставимым с традиционной альтернативой.

Наше первое решение, поиск работы посетителя (показано ниже), было построено с учетом только двух основных факторов: релевантности текста и новизны. Была разработана простая формула ранжирования, настроенная вручную с учетом этих факторов. Последняя итерация этого решения основана на подходе, основанном на двухступенчатом обучении для ранжирования. Кандидаты выбираются с помощью быстрого независимого от запроса первого прохода, который повторно ранжируется зависимым от запроса вторым проходом на основе более продвинутой модели с более богатыми функциями.

Основные используемые функции связаны с новизной, местонахождением и качеством (длина описания, начальный бюджет). Довольно интересным и эффективным является один из типов функций, который интуитивно отражает разницу в цене, которую клиент ожидает заплатить, по сравнению с аналогичной работой с такими же требованиями к навыкам. Работа, за которую платят больше, чем средняя, ​​основанная на навыках, оказывается более привлекательной для фрилансеров. В качестве специфичных для запроса функций мы используем дистанционные функции, такие как семантическое сходство между запросом и заголовком результата. Для изучения модели мы определили различные уровни релевантности, используя пропущенные результаты, результаты с щелчком мыши и различные действия, выполняемые с результатами, по которым был осуществлен щелчок, например Наибольший уровень релевантности имеют результаты с кликами, для которых мы наблюдали действие подписки. Мы обнаружили, что эта офлайн-оптимизация, основанная на NCDG, помогает получить результаты, которые соответствуют метрикам онлайн-бизнеса, которые мы стремимся продвигать: с рейтингом машинного обучения посетители были более вовлечены (более высокое общее количество показов и кликов), а уровень ежедневной регистрации в значительной степени улучшен.

Начинать

Аналогично клиентской воронке, центральной темой для всех нижеприведенных приложений является двустороннее сопоставление. Мы хотим, чтобы вакансии и их клиенты были привлекательными и соответствовали интересам фрилансера. С другой стороны, способности фрилансера также должны соответствовать требованиям работы, чтобы клиент принял их заявку, нанял сотрудников и был удовлетворен выполнением заказов.

Для получения рекомендаций мы изучили различные известные методы и в итоге получили гибрид контентной и совместной фильтрации. Используя явные рейтинги клиентов, предоставленные фрилансерами во время завершения работы, мы строим матрицу с фрилансером в качестве пользователя и клиентом в качестве элемента. Затем мы запускаем матричную факторизацию, чтобы получить скрытые векторы пользователей и элементов. С помощью скалярного произведения этих векторов мы прогнозируем рейтинг для данной пары фрилансер и клиент. Однако мы обнаружили, что как для клиентских, так и для внештатных воронок прогнозируемые рейтинги полезны, но не являются наиболее важным сигналом для рекомендаций. Наши проблемы с рекомендациями более сложны, и их цель часто состоит не просто в том, чтобы предсказать, что нравится фрилансерам, но и в том, чтобы побудить их выполнять определенные действия, которые имеют разные полезности. Для решения этого типа проблем наш стандартный подход состоит в том, чтобы сформулировать линейную целевую функцию, которая кодирует утилиту для желаемых действий. Мы выводим полезность отдельных действий, используя основанные на журнале кликов оценки их приписываемого воздействия на бизнес-цель. Например, учитывая, что целью является конверсия при приеме на работу, мы выводим полезность действия с заявлением о приеме на работу на основе среднего количества заявок, которые требуется (среди прочего) для наблюдения за приемом на работу. Для максимизации полезности пользователя важны рейтинги, но существуют гораздо более сильные сигналы, основанные на содержании и двусторонние сигналы соответствия, включая семантическое сопоставление профиля работы и профиля фрилансера и модели работы и модели карьерного интереса ( см. модели фрилансеров ниже).

Если не брать в расчет технику, то, что помогло нам сделать самый большой скачок, - это понимание проблемы, с которой начинается работа, и разбивка ее на проблемы построения моделей фрилансера для отражения различных аспектов.

  • Обязательство / доступность: мы строим модель, чтобы предсказать вероятность того, что фрилансер примет приглашение или предложение о работе.
  • Интерес: на основе кликов, заявок и вакансий в прошлом мы строим модели прошлых интересов и будущих карьерных амбиций фрилансера.
  • Уровень навыков и опыта: учитывая навыки фрилансера, наша цель - проверить их, используя клиентов в качестве судей. Для этого мы рассматриваем каждую работу как соревнование, а исторические решения клиента (приглашение, собеседование, прием на работу, отклонение) как сигналы для количественной оценки уровня опыта фрилансера в каждом из навыков, требуемых в этих соревнованиях (см. Обсуждение TrueSkill 2 выше). .
  • Репутация: у каждого фрилансера есть оценка успешной работы, которая, как и система звездных рейтингов на других платформах, основана на явных отзывах. Как обычно, явная обратная связь надежна только в сочетании с неявной обратной связью, связанной с поведением пользователя. Помимо этого, мы также решаем проблему холодного старта по прогнозированию репутации / показателя качества для новых пользователей.
  • Влияние на ценность и удержание: Святой Грааль в моделировании фрилансера - это предсказать ценность, которую фрилансер генерирует (прибыль), и их успех в удержании клиентов. Хотя мы обнаружили, что можно иметь отдельные модели, которые отражают эти аспекты по отдельности, их сложно объединить в одну цель. Создание ценности часто бывает краткосрочным, что может происходить за счет долгосрочного удержания клиентов.

Используя эту информацию о фрилансерах, мы создаем функции для прогнозирования и разложения пригодности к работе на аспекты интересов и опыта и продвигаем фрилансеров с высокой приверженностью, звездной репутацией и большей ценностью и / или влиянием на удержание.

Представленное решение является стандартным, во многом основывающимся на понимании предметной области, функциях, созданных вручную, и моделях, адаптированных к бизнес-задачам. Мы считаем, что этот подход к моделированию сохранит свои достоинства из-за бизнес-необходимости поддерживать модель объяснимой и разлагать решение на интуитивно понятные рычаги для понимания и контроля наших пользователей, например чтобы отсортировать рекомендации по доступности, опыту и репутации. Однако мы также исследуем широкий и глубокий подход к построению рекомендательных систем. Учитывая знания и успех, которые мы уже имели с использованием нейронных сетей для встраивания объектов (см. Обсуждение выше), легко поверить, что глубокая часть этой модели поможет нам изучить и получить функции и представления, которые превосходят те, которые мы добавили вручную. вместе до сих пор.

Хотите узнать больше? Пожалуйста, свяжитесь с членами нашей команды, работающими над этими усилиями:

- Игорь Корсунов, Иван Портянко, Юнтао Ма: Поиск работы и рекомендации в Upwork.

- Александр Крайнов, Амро Торк, Ле Гу, Нимит Паттанасри, Тхань Тран: Моделирование фрилансеров - как мы моделируем факторы успеха и помогаем фрилансерам стать более успешными в Upwork.

Расти

Мы помогаем нашим фрилансерам расти, предоставляя стабильный поток рекомендаций по работе (возможностям заработка), а также консультируя наших фрилансеров, чтобы они могли добиться большего успеха в конкретных должностях и их карьере в Upwork. На скриншотах ниже показана наша панель управления успехом в работе фрилансера, цель которой - предоставить это руководство (на данный момент эта панель доступна только для нашей группы поддержки, и мы планируем выпустить упрощенную версию для наших пользователей-фрилансеров).

Мы видим, что модели фрилансеров, описанные выше, также используются для того, чтобы наши фрилансеры могли понять работу и карьерный успех с точки зрения их навыков, уровня знаний, качества и репутации с точки зрения платформы и клиентов.

Для расчета факторов успеха для конкретной работы мы построили модель, позволяющую предсказать, будет ли нанят фрилансер на данную работу. Используя новейшие методы объяснимости модели, мы разберем, как модель работает для индивидуального прогноза. С помощью Ценности SHAP (объяснения SHAPley Additive) мы можем увидеть, как основные функции / факторы влияют на успех каждой вакансии, к которой обращается наш фрилансер, и получить рекомендации для конкретных профессий и советы по карьере, основанные на этих факторах.

Хотите узнать больше? Пожалуйста, свяжитесь с членами нашей команды, работающими над этими усилиями:

- Александр Крайнов, Ле Гу, Нимит Паттанасри: Объясняемость модели в действии - использование ценностей SHAP для выработки рекомендаций по успешной работе для фрилансеров Upwork.

Следующая статья в этой серии



Об авторах

Тхань Тран - глава отдела науки о данных в Upwork, где он работает с командой из более чем 30 ученых и инженеров, чтобы создать инновационный механизм, лежащий в основе крупнейшей в мире платформы для фрилансинга и гибкой работы. В качестве предпринимателя и советника стартапов Bay Area он помогал создавать команды, собирал капитал для многих компаний и успешно поставлял инновационные технологические решения и приложения для конечных пользователей. Тхань ранее работал профессором Технологического института Карлсруэ (KIT) и Стэнфорда (посещал), где он возглавлял ведущую исследовательскую группу в мире по семантическому поиску. Он получил различные награды и признание за свою академическую работу (5-летняя награда Самая цитируемая статья, входит в пятерку лучших по семантическому поиску и входит в топ-50 по веб-поиску по глобальному индексу Google Scholar за 2016 год).

Статья была отрецензирована, а фактическая работа выполнена следующими членами группы по анализу данных: Александр Крайнов, Амро Торк, Андрей Демус, Артем Москвин, Данило Д., Димитрис Маникис, Ева Мок, Джордж Барелас, Яннис Кутсубос, Хемант Ратаконда, Игорь Корсунов, Иван Портянко, Жоао Виейра, Ле Гу, Лей Чжан, Михаил Батуров, Нимит Паттанасри, Пабло Селайес, Куанг Хиеу Ву, Роман Ткачук, Самур Кардосо Де Араужо, Сибо Лу, Сиддхарт Кумар, Сильвестре Лосасада, Спирос Каписов, Спирос Каписов , Вели Бисер, Винь Данг, Йонгтао Ма, Зарко Селебич.