Как мы создали нашу модель прогнозирования цен

Запущен продукт для удаления нескольких предметов. Попробуйте: https://www.airtasker.com/instant-book/few-items-removals/

Фон

Изучая задачи, мы обнаружили, что у плакатов очень разные представления о том, сколько они должны платить за один и тот же объем работы. С другой стороны, исполнители задач знают рыночный курс лучше, чем плакаты, так как им нужно уметь цитировать плакаты. Разрыв в ожиданиях между плакатами и исполнителями - одно из препятствий для «постановки задач».

Этот проект хочет предоставить плакаты с рыночной ценой некоторых задач по удалению предметов путем создания модели прогнозирования цен.

В более широком смысле, мы хотим создать «цикл обратной связи», который сделает данные полезными для наших продуктов.

Мы выбираем предметы для удаления по трем причинам. Во-первых, деликатесы - это категория повышенного спроса. В нем самое большое количество задач. Во-вторых, возможность для бизнеса. Нет необходимости искать транспортную компанию, если вы просто хотите переместить стол. Это возможность исполнителей. В-третьих, не существует инструмента, который мог бы немедленно цитировать элементы удаления.

Основные выводы

Мы построили модель линейной регрессии, чтобы предсказать среднюю цену предложения для задач по удалению товаров. Выбирая модель линейной регрессии, мы ожидаем, что если остальные переменные совпадают, чем больше мебели, тем выше цена. Как и в приведенной ниже таблице.

Объясняющие переменные включают в себя все характеристики из стандартной формы удаления предметов (например, количество холодильников), а также переменные, рассчитанные из стандартной формы (например, сумму предметов). Средняя процентная погрешность цены составляет 24%.

Ошибка в процентах цены = (оценочная_цена - реальная_цена) / реальная_цена

Ошибка в процентах цены возникает из-за:

1. Модель. Линейная модель не идеальный вариант, но она лучше всего служит продукту.

2. Особенности. Мы можем обнаружить больше функций, которые положительно повлияют на модель.

3. Немногочисленные данные.

Самая важная объясняющая переменная - это область плакатов. Например, ориентировочная цена перемещения 10 двухместных диванов в Новом Южном Уэльсе составляет 366 долларов, а в TAS - 156 долларов, что примерно вдвое дешевле, чем в Новом Южном Уэльсе.

Мы также неожиданно обнаружили, что расстояние от места получения до места высадки мало влияет на цену.

Теперь у вас есть основные выводы. Вы можете остановиться здесь или углубиться в анализ.

Глубокое погружение

Приложение

Применение ценовой модели может обеспечить расценки для задач мгновенного бронирования удаленных товаров, где справедливая цена является важной характеристикой для задач, которые должны быть назначены. Мы также можем использовать эту модель, чтобы стать лидером в установлении цен на товары для вывоза, что может принести пользу нашему SEO.

Данные

Данные, использованные для построения модели, были получены из 1 200 закрытых задач стандартной формы удаления элементов. Мы исключили задачи с объемными предметами и плакаты с лишними запросами.

Построение модели

Мы использовали модель линейной регрессии, потому что она дает нам возможность увидеть влияние каждой переменной на расчетную цену.

Что такое линейная регрессия?

Линейная регрессия - это алгоритм построения оптимизированной прямой линии между двумя или более переменными. Возможность провести такую прямую линию помогает нам не только предсказывать неизвестное, но и лучше понимать взаимосвязь между переменными. У него есть уравнение вида Y = a + bX, где X - независимая переменная, а Y - зависимая переменная. Наклон линии равен b, а a - точка пересечения (значение y при x = 0)

Связь между весом и ростом

Мультилинейная регрессия

Поскольку у нас есть более одной независимой переменной, нам нужна модель полилинейной регрессии. Y = a + (b1 x X1) + (b2 x X2) +… + (bn x Xn)

Y - средняя цена предложения

можно интерпретировать как базовый заряд

X1 может быть количеством холодильников, X2 может быть уровнями таскеров и т. Д.

b1 - коэффициент при X1 и т. д.

В мультирегрессионной модели каждая исследуемая переменная является измерением. Эта диаграмма визуализирует модель с тремя доступными для исследования переменными.

Зарегистрируйте стоимость денег и расстояние

Поскольку деньги и расстояние экспоненциальны, мы применили натуральный логарифм для их нормализации.

Распределение средней цены предложения до применения логарифма

Распределение средней цены предложения после применения логарифма

Чтобы инвертировать лог обратно к денежной стоимости, мы просто применяем к нему экспоненту. Цена = e ^ y

Зависимая переменная (Y):

Средняя цена предложения задачи - это цель, которую мы хотим спрогнозировать. Мы использовали среднюю цену предложения вместо закрытой цены или назначенной цены, потому что для одного и того же объема работы каждый плакат имеет разные представления о том, сколько он должен стоить. Они также по-разному ценят качество и цену - некоторые плакаты хотят лучшего обслуживания и не возражают платить больше, чем рыночная цена. С другой стороны, некоторые плакаты хотят платить как можно меньше.

Следовательно, средняя цена предложения задачи может представлять рыночную цену лучше, чем цена закрытия или назначенная цена.

Объясняющие переменные (X):

Мы попробовали ряд переменных, чтобы соответствовать модели, и сохранили те, которые влияют на модель, а также применимы к продукту.

Есть 43 независимых переменных. Большинство переменных взяты из стандартной формы, например количество диванов и расстояние от места посадки до места высадки. Некоторые из переменных генерируются из других переменных для оптимизации модели, например: общее количество элементов, количество крупных элементов.

Разработка функций - как мы открываем новые функции

В идеале мы хотим включить в модель все переменные, которые влияют на цену. Мы обнаружили новые функции, проанализировав задачи с одинаковой оценочной ценой, но с другой целевой ценой. Мы сравнили две задачи, чтобы определить разницу между ними, так как это могло указывать на функцию, которую мы упустили. Например, если есть две задачи с одинаковым объемом работы, и единственная разница состоит в том, в каком состоянии находится плакат, это означает, что состояние плакатов может быть функцией, которую мы пропустили. Мы можем добавить его в модель, чтобы проверить, так ли это. Погрешность модели уменьшится, если функция будет влиять на цену.

Важные переменные

Провинция плакатов сильно влияет на цену. Это очень важная переменная. Две диаграммы показывают, как провинции, в которых размещены плакаты, лучше соответствуют модели.

Перед добавлением провинций плакатов к модели.

После добавления провинций плакатов в модель

Мы также обнаружили, что уровень опыта исполнителя (количество задач, выполненных на момент предоставления предложения; уровни исполнителей) оказывает среднее влияние на цену.

(Удивительно?) Неважные переменные

Мы думали, что есть некоторые переменные, которые сильно влияют на цену, но это не так. Сюда входит расстояние от места получения до места высадки и количество предложений, полученных для выполнения задачи.

Некоторые другие переменные

Эти переменные были созданы, чтобы соответствовать модели:

Общее количество элементов: сумма всех элементов в задаче.
Ограниченное количество элементов: мы обнаружили, что модель имеет тенденцию завышать цену для задач с большим количеством элементов. Чтобы предотвратить это, мы создали эту переменную, чтобы ограничить количество элементов до 21 максимум.
Количество крупных предметов; имеет крупногабаритные изделия: у нас более 30 видов мебели в стандартной комплектации. Мы использовали Дерево решений, чтобы выбрать основные элементы, названные «большими элементами». Дерево решений часто используется для уменьшения количества переменных. В нашем случае мы по-прежнему сохранили все типы мебели, потому что это было необходимо для конечного продукта, но мы создали еще две переменные («количество крупных предметов» и «имеет большие предметы»), чтобы выделить важные предметы.

Тестирование модели

После построения модели мы хотим проверить, насколько она точна.

Оценка точности модели

Мы использовали «среднюю процентную ошибку цены», чтобы оценить точность модели.

погрешность в процентах цены = (оценочная_цена - реальная_цена) / реальная_цена

Например, если модель оценивает стоимость задачи в 100 долларов, а фактическая цена составляет 80 долларов, процентная погрешность цены составит (100–80) / 80 = 0,25.

Средняя расчетная цена процентной погрешности модели составляет 24%.

На приведенной ниже диаграмме показано распределение целевой цены и оценочной цены. Из-за скудности данных о задачах с высокой ценой модель имеет тенденцию прогнозировать, что эти цены находятся в среднем ценовом диапазоне (70 ~ 130 долларов США), где находится большинство задач. Сбор большего количества данных потенциально может улучшить это.

Метод тестирования

Мы использовали перекрестную проверку с исключением по одному, чтобы протестировать модель. Leave-one-out использует один экземпляр в качестве данных тестирования, а остальные экземпляры - в качестве данных обучения. Такой экстремальный способ тестирования гарантирует верную частоту ошибок.

Откуда возникла ошибка?

Модель: Лучшая модель производительности - это не линейная модель. Нелинейная модель имеет гораздо меньшую процентную ошибку (около 15%), что указывает на нелинейность данных. Однако линейная модель лучше всего подходит для нашей цели, потому что мы можем видеть влияние каждой переменной на цену. Кроме того, нелинейные модели могут вести себя чрезвычайно при выбросах.
Недоступные функции: Самая важная особенность - это опубликованная цена от плакатов, которая закрепляет цену предложения от таскеров. К сожалению, мы не можем узнать объявленную цену до того, как задача была опубликована, поэтому мы не можем включить эту функцию в модель.
Недостающие функции: могут быть важные функции, которые мы упустили из модели.
Разрозненные данные: в стандартной форме более 30 различных элементов. Большинство плакатов нужно переместить только несколько из них. Следовательно, большинство функций равны 0.

Резюме

Этот проект был разработан для создания ценности для наших продуктов путем создания ценовой модели удаленных товаров. Модель построена на 1200 задачах из стандартной формы удаления предметов. Средняя погрешность расчетной цены составила 24%.

Что произойдет дальше?

Мы решили создать продукт «Мгновенная книга удаления нескольких предметов» с этой моделью, которая позволит нам мгновенно указать цену. Мы решили перейти к созданию продукта, а не тратить время на доведение модели до совершенства, потому что 1. Совершенная модель не делает продукт безупречным. Успешный продукт также должен учитывать пользовательский опыт, пользовательский интерфейс и приносимые им бизнес-ценности. 2. Есть трудности со сбором дополнительных данных по обучению. 3. Есть функции, которые не имеет смысла включать в модель. то есть объявленная цена.

Продукт

Запущена мгновенная книга удаления нескольких предметов https://www.airtasker.com/instant-book/few-items-removals/