Кристофер Рупли, ведущий специалист по данным по Эйнштейну, Salesforce

При настройке нового прогноза одним из необходимых шагов является выбор полей из ваших данных, которые вы хотели бы включить при построении прогнозной модели. Поскольку вся прогностическая сила модели зависит от того, какие данные мы выбираем для ее отображения, выбор правильных полей важен для получения хороших прогнозов.

Рассмотрим пример прогнозирования того, какие из ваших возможностей продаж наиболее эффективны. вероятно, будет выигран. Пример того, как может выглядеть набор возможностей, приведен ниже:

Поле, которое мы хотим спрогнозировать в этом примере, - это IsWon, а другие поля являются возможными кандидатами для включения в качестве входных данных в модель прогнозирования.

Что включить

Короче говоря, включите как можно больше. У вас могут быть некоторые идеи об определенных областях, которые уже были бы полезны для составления прогнозов. Что касается нашего примера возможностей, возможно, вы знаете, что они с большей вероятностью будут выиграны, если сумма не слишком велика, или когда они поступают из определенного LeadSource, или когда LastActivityDate не так давно, что он устарел. Вы обязательно должны включить эти поля. Тем не менее, предсказательная сила может быть и в областях, которых вы не ожидаете. Возможности определенных идентификаторов ContactId могут быть лучше преобразованы, и потенциально можно получить много информации из поля "Описание", даже если это просто произвольный текст.

Дело в том, что в ваших данных может быть много мелких сигналов, которые может помочь определить, каким может быть окончательный результат. Вы можете не всегда замечать их сами или даже осознавать их, но прогностическая модель может использовать их, чтобы сделать ваши прогнозы как можно более точными. Как правило, чем больше данных вы даете ему, тем лучше.

Что исключить

С учетом сказанного, все еще есть определенные виды полей, которые вам, вероятно, не следует включать в свою модель. Хотя в целом больше данных лучше, есть некоторые исключения по этическим и юридическим причинам, а также по причинам качества прогнозов.

Этические проблемы

Если вы используете прогнозы модели для принятия какого-либо бизнес-решения, вы также косвенно используете информацию, которую вы использовали для создания этой модели, в своем решении. Может быть множество причин, по которым использование определенных типов данных для принятия решений может вызвать этические проблемы, и это будет зависеть как от того, что содержится в данных, так и от проблемы, к которой вы их применяете. Например, было бы разумно включать пол клиента, когда вы пытаетесь решить, какую одежду рекомендовать, но вы, вероятно, не захотите использовать это, если попытаетесь предсказать, какую зарплату вы должны предложить, делая предложение о работе. . Быстрая проверка заключается в том, чтобы заполнить поле данных, которое вы используете, и проблему, которую вы решаете, в следующем утверждении:

Я использую ‹поле x›, чтобы решить ‹проблему y›

Если мы применим этот тест к примерам выше, он станет,

Я использую пол покупателя, чтобы помочь мне порекомендовать лучшую одежду.

Я использую пол клиента, чтобы решить, какую стартовую зарплату мне предложить. ❌

Если вам неудобно делать это утверждение, это поле не следует включать в вашу модель. Подробнее об этичном использовании данных и предвзятости см. Этот пост.

Правовые вопросы

Также могут быть ситуации, когда законом запрещено использовать определенную информацию при принятии решений. Если поле содержит информацию о расе, религии, поле или национальности человека, вы не захотите использовать его в качестве входных данных для чего-то вроде принятия решений о найме в таких местах, как США, где это запрещено.

Здесь вы можете применить тот же тест, что и при оценке потенциальных этических проблем, и спросить себя, могут ли быть какие-либо юридические ограничения на включение определенных полей в ваш процесс принятия решений. Если ваш бизнес связан с такими вещами, как решения о трудоустройстве, кредитовании, здравоохранении или любых других сферах, регулируемых аналогичным образом, стоит просмотреть список областей, которые вы используете.

Поля с «предвзятым взглядом назад»

Есть определенные ситуации, когда включение поля в ваши прогнозы может действительно ухудшить их. Можно сказать, что эти поля демонстрируют «предвзятость ретроспективного взгляда». Это поле, в котором содержимое заполняется или обновляется в записи через некоторое время после определения окончательного значения поля прогнозирования. Примером этого может быть заполнение поля продажи «Стоимость» возможности в то время, когда она выиграна. Поле Value может показаться очень хорошим предиктором выигрыша возможности, поскольку всякий раз, когда оно присутствует, возможность выигрывается каждый раз. Однако на практике мы не можем использовать Value в качестве предиктора, поскольку он никогда не доступен до выигрыша (то есть, он выглядит как хороший предиктор только «задним числом»). Вот некоторые другие общие примеры проблем этого типа:

  • Поля, которые заполняются только во время «преобразования» или после, например, в примере «Значение» выше.
  • Поля формул, зависящие от того, что вы пытаетесь предсказать, следует исключить. Например, у вас может быть поле, которое вы используете для определения последующих действий после выигранной возможности, формула которой начинается с IF IsWon AND .... Это поле не должно быть включено.
  • Если поле, которое вы пытаетесь предсказать, является полем формулы, любые поля, которые появляются в этой формуле, не должны использоваться. Предположим, что вместо прогнозирования IsWon вы прогнозируете другое поле, ExpectedValue, которое равно формуле (Value * LikelihoodToWin). В этом случае следует исключить поля Value и LikelihoodToWin.

Если у вас есть какие-либо поля, соответствующие этим критериям, их, вероятно, не следует включать в ваши прогнозы.

Использование отзывов из оценочной карты

Вы также можете найти дополнительные поля, которые нужно исключить из своей модели, посмотрев на карту показателей модели после того, как вы впервые сделаете прогноз. Мы можем посмотреть на вкладки «Предикторы» и «Подробности», чтобы увидеть, как поля повлияли на прогнозы, и поискать несколько разных индикаторов.

Если вы видите такие вещи, как поле, у которого корреляция намного выше, чем у вас Можно ожидать, особенно если это одно поле имеет гораздо намного более высокое влияние, чем все остальное, вы можете рассмотреть возможность исключения его из своих прогнозов.

В приведенном выше примере системы показателей показан хороший пример поля, которое следует удалить. Комбинация Слишком высокое качество прогноза (99) и одного верхнего предиктора, который намного выше, чем другие (значение), является хорошим индикатором того, что это поле следует рассмотреть для удаления.

Вы можете узнать больше о системе показателей Einstein Prediction Builder здесь.