Как мы калибруем наши показатели успеха, сравнивая количественные результаты с качественными отзывами пользователей

Неуверенность в отношении будущего денежного потока - одна из самых сложных вещей при ведении малого бизнеса. В Xero мы создаем продукт, который поможет справиться с этой неопределенностью, используя алгоритмы, которые предсказывают будущие транзакции, выявляя повторяющиеся закономерности в исторических транзакциях. Метрики машинного обучения (ML) позволяют нам оценить наши прогнозы и убедиться, что мы движемся в правильном направлении.

Но сами по себе показатели машинного обучения - это просто числа. Без отзывов клиентов они не говорят нам, насколько хорош продукт на самом деле. Что в конечном итоге определяет, является ли показатель машинного обучения «хорошим» или «плохим», так это контекст и потребности клиента. Например, 10% -ный коэффициент ошибок при прогнозировании времени прибытия вашего рейдшерингового сервиса - это хорошо (вы откатитесь всего на 1-2 минуты), но 10% -ный коэффициент ошибок при обнаружении спама доставит вам ужасные впечатления.

Итак, как мы узнаем, точно ли наши показатели машинного обучения отражают опыт наших клиентов? Чтобы ответить на этот вопрос, мы создали процесс оценки машинного обучения, который коррелирует наши показатели машинного обучения с пользовательским опытом, чтобы по мере улучшения наших показателей наши клиенты могли ощутить это улучшение значимым образом. Вот как мы это сделали.

"Аэродинамические трубы" - это испытательный полигон для более быстрой обратной связи

Разработка продуктов ML имеет некоторые удивительные параллели с разработкой автомобиля Формулы 1. Стоимость доставки гоночного автомобиля на трассу и доставки в производство продукта машинного обучения веб-масштаба очень высока. Чтобы управлять расходами, команды Формулы 1 не отправляют каждый прототип гоночного автомобиля прямо с чертежа на гоночную трассу для пробного запуска.

Вместо этого более дешевые мелкосерийные модели сначала проходят тщательные испытания и доработку в аэродинамической трубе. В этой аэродинамической трубе показатели, имеющие отношение к аэродинамике автомобиля, такие как прижимная сила и сопротивление, измеряются как показатель эффективности конструкции.

Аэродинамическая труба позволяет значительно сократить цикл обратной связи, что позволяет команде оценивать характеристики автомобиля после каждой итерации исследования. Они выводят гоночную машину на трассу для надлежащего пробного заезда только после того, как результаты в аэродинамической трубе показывают удовлетворительные характеристики, потому что пробные пробеги требуют много времени и усилий.

Точно так же мы можем протестировать итерации наших продуктов, проводя UX-интервью с реальными клиентами. Задавая целевые вопросы, мы даем клиентам возможность оценить эффективность нашего продукта. Однако запланировать, провести и проанализировать такие интервью стоит дорого. И они не масштабируются для большого количества клиентов. Без альтернативных стратегий тестирования мы рискуем выявить некачественный продукт, который потенциально может нанести ущерб доверию клиентов и репутации Xero.

Так что, если бы нашим продуктом был гоночный автомобиль, интервью UX могло бы быть пробным запуском на гоночной трассе. Возникает вопрос: а что такое наша аэродинамическая труба?

В машинном обучении наша аэродинамическая труба - это конвейер оценки

Нам нужна была аэродинамическая труба для нашего продукта машинного обучения, чтобы выполнять автономную оценку каждой итерации и сравнивать его производительность, прежде чем показывать ее клиентам. Поэтому для этой цели мы создали конвейер оценки, который сократил цикл обратной связи с недель (организация интервью с пользователями) до минут (расчет и анализ показателей).

Что мы измерили в нашей аэродинамической трубе? Хороший вопрос. Мы начали с двух основных показателей машинного обучения - точности и отзыва:

  • Точность. Какая доля предсказанных транзакций действительно произошла?
  • Напомним: какие доли транзакций, которые должны были быть предсказаны, были правильно спрогнозированы?

Они могут показаться простыми, но могут быстро усложниться, если мы поместим их в контекст денежного потока. Например, какой правильный прогноз? Будет ли забота нашим клиентам, если прогнозируемая сумма будет меньше на 5%? Как насчет 20% или 30%? И если прогнозируемая сумма верна, что, если прогнозируемая дата транзакции истечет через несколько дней?

Что касается отзыва, многие бизнес-операции происходят только один раз, поэтому какие из них следует считать предсказуемыми для нашего отзыва? Все ли транзакции равны? Наши клиенты гораздо больше заботятся о правильно спланированной арендной плате, чем о комиссии банка. Так как же нам учитывать относительную важность транзакций?

Это лишь некоторые из открытых вопросов, на которые нам пришлось ответить при разработке наших показателей. Без учета ответов у нас были бы разные варианты точности и запоминания, не зная, был ли один лучше другого с точки зрения того, как они отражают пользовательский опыт.

Измеряемые нами показатели сложны и требуют проверки

Ясно, что разработка показателей - сложное дело, и в нем сложно разобраться. Поэтому нам нужен был способ знать, правильно ли измеряют наши показатели. Без этих доказательств мы рискуем удовлетворить себя и своих заинтересованных лиц нерелевантными цифрами, которые на самом деле не отражали впечатления наших клиентов от продукта. Это все равно, что поместить гоночный автомобиль Формулы 1 в аэродинамическую трубу и почувствовать уверенность в его характеристиках, измерив его блеск или цвет краски.

Нам нужно было найти доказательства, чтобы определить, являются ли наши показатели машинного обучения хорошим показателем взаимодействия с пользователем. Для этого мы сопоставили наши показатели машинного обучения с субъективной аморфной концепцией взаимодействия с пользователем.

Сопоставление показателей машинного обучения с отзывами пользователей

Шаг 1. Оценка качественной обратной связи

Наша команда тесно сотрудничает с группой первых пользователей, чтобы получать регулярные отзывы пользователей о нашем продукте. Примерно раз в месяц мы проводим интервью с владельцами малого бизнеса, чтобы рассказать о последних изменениях, которые мы внесли. Это могут быть новые функции, компоненты пользовательского интерфейса или улучшения прогнозов. Мы использовали отзывы из этих интервью, чтобы задать контекст для наших показателей машинного обучения.

Мы сделали это, присвоив каждому интервью два балла - один за то, что мы ожидали от их точности, а другой за отзыв. Качество прогнозов оценивалось по пятибалльной шкале:

  • 0/5 - Ужасно, все прогнозы неверны (точность). Никаких прогнозов, все пропустил (вспомните)
  • 1/5 - Плохо, бесполезно
  • 2/5 - Мех
  • 3/5 — OK
  • 4/5 - Хорошо
  • 5/5 - Отлично, лучше и быть не может. Лицо Эндрю Нг появляется во сне и гладит вас по спине.

Взяв в качестве примера точность, мы оценили, насколько точными были наши прогнозы, основываясь на их комментариях:

  • «Почти все эти прогнозы неверны!» → 1/5 ожидаемой точности
  • «Вау, все эти прогнозы верны!» → ожидаемая оценка точности 5/5

Мы использовали тот же процесс для отзыва: если клиент указывал, что мы не смогли предсказать некоторые ключевые вещи, мы ожидали, что оценка отзыва это отразит.

  • «Некоторые вы предсказали правильно, но пропустили много важных для меня транзакций!» → 2/5 ожидаемой оценки запоминаемости
  • «Вау, он предсказал все, что я могу придумать!» → ожидаемая оценка запоминаемости 5/5

Этот процесс присвоения оценки качественной обратной связи может быть субъективным, поэтому мы принимаем некоторые меры для уменьшения предвзятости:

  • Мы оценили качественную обратную связь, прежде чем смотреть на показатели, потому что не хотели, чтобы фактические значения искажали наше суждение.
  • Мы заранее договорились о пользовательском опыте, который представляет каждая оценка
  • Мы проверили наши оценки и подписали их владельцем продукта и дизайнером, так как они присутствовали на всех собеседованиях и имели больше информации об этих малых предприятиях.

СОВЕТ. Нам удалось запустить существующий график тестирования юзабилити, но вам не нужен формальный план исследования UX, чтобы получить приблизительное представление о том, насколько хорош ваш продукт для человека. Возможно, вы могли бы показать свою функцию некоторым людям из другой команды, которые менее знакомы с продуктом, и таким образом получить неформальную обратную связь.

Шаг 2. Расчет показателей машинного обучения для опрошенных пользователей

После того, как мы попытались сопоставить некоторые числа с нашей качественной обратной связью, мы рассчитали показатели производительности нашего алгоритма (точность и отзывчивость), чтобы начать исследование корреляции. Используя нашу систему оценки, мы смогли быстро создать показатели для каждого пользователя в нашей группе тестирования.

Шаг 3. Анализ корреляции между качественной обратной связью и количественными показателями

Получив ожидаемые качественные оценки и фактические количественные показатели, мы проанализировали их корреляцию.

Первый рисунок иллюстрирует широкую корреляцию между нашими показателями и опытом пользователей. Он показывает, что показатели движутся в том же направлении, что и отзывы пользователей, и что высокая точность и отзывчивость соответствуют лучшему пользовательскому опыту.

Второй показывает пример того, что наши показатели не являются хорошим индикатором пользовательского опыта. В этом примере наша точность имеет аналогичные значения, несмотря на то, что существует ряд качественных отзывов. Наши отзывы высоки, хотя наши клиенты говорят, что многие важные транзакции неправильно предсказаны.

Этому явлению могут способствовать разные факторы. Например, наше определение правильных прогнозов может отличаться от определения наших клиентов. Отсутствие корреляции для отзывов также предполагает, что наша гипотеза о том, какие транзакции являются предсказуемыми и важными, не соответствует ожиданиям наших клиентов.

Сопоставляя отзывы клиентов с различными вариантами наших показателей машинного обучения (изначально у нас их было более 30), мы смогли настроить наши определения точности и отзывчивости, чтобы убедиться, что они близко отражают пользовательский опыт. Это не был разовый процесс. Поскольку наши знания о проблеме, рынке и предпочтениях наших пользователей постоянно меняются, нам необходимо заново откалибровать наши показатели, чтобы они соответствовали ожиданиям наших клиентов.

Результатом этого упражнения является то, что теперь у нас есть доказательства того, что наши метрики достоверно приблизительно соответствуют тому опыту, который пользователи получат в реальном мире. Мы можем использовать эти числа для измерения улучшений нашей модели по мере того, как мы быстро выполняем итерацию, и с уверенностью сообщать о своей эффективности заинтересованным сторонам, зная, что любое увеличение наших показателей указывает на ощутимое улучшение взаимодействия с пользователем.

Подключение машинного обучения к человеческому опыту

Инженеры Формулы 1 тщательно продумывают способы измерения сложных показателей аэродинамики гоночных автомобилей в сложных аэродинамических трубах. Точно так же мы вкладываем много времени в создание показателей успеха и конвейеров оценки для продуктов машинного обучения. Но показатели не имеют смысла, если они не доказано, что они отражают эффективность в реальном мире - будь то на гоночной трассе или на экранах наших пользователей.

Сравнивая эти показатели с человеческим опытом, мы устраняем разрыв между качественной и количественной областями. Этот процесс требует участия не только специалистов по данным, но и инженеров, владельцев продуктов, дизайнеров и исследователей UX, потому что создание продуктов машинного обучения - это командный вид спорта. Пройдя через этот процесс, мы теперь уверены, что когда мы переместим стрелку на эти показатели, это положительно повлияет на жизнь наших клиентов.

Соавтором этой статьи является Jenny Sahng. Мы также хотели бы выразить нашу особую благодарность Soon-Ee Cheah и Кевину Райану за ваш вклад в эту статью.