Структура для определения причинно-следственной связи успешных визуальных компонентов.

Авторы Billur Engin, Yinghong Lan, Grace Tang, Cristina Segalin, Kelli Griggs, Vi Iyengar

Введение

В Netflix мы хотим, чтобы наши зрители могли легко находить телешоу и фильмы, которые находят отклик и интерес. Наша творческая команда помогает в этом, разрабатывая рекламные изображения, которые лучше всего представляют каждую игру, представленную на нашей платформе. Что, если бы мы могли использовать машинное обучение и компьютерное зрение, чтобы поддержать нашу творческую команду в этом процессе? Определив компоненты, которые способствуют успешному произведению искусства — те, которые побуждают участников выбирать и смотреть его, — мы можем дать нашей творческой команде информацию, основанную на данных, для включения в их творческую стратегию и помочь им в выборе того, какое произведение для показа.

Мы собираемся сделать предположение, что наличие определенного компонента приведет к успеху произведения искусства. Мы обсудим причинно-следственную структуру, которая поможет нам найти и обобщить успешные компоненты как творческие идеи, а также выдвинуть гипотезу и оценить их влияние.

Вызов

Учитывая обширный и все более разнообразный каталог Netflix, сложно разработать эксперименты, которые работают в рамках A/B-тестирования и представляют все жанры, сюжеты, исполнителей и многое другое. В прошлом мы пытались разработать A/B-тесты, в которых мы исследовали один аспект художественного произведения за раз, часто в рамках одного определенного жанра. Однако у этого подхода есть большой недостаток: он не масштабируется, потому что нам приходится либо вручную маркировать изображения, либо создавать новые варианты активов, отличающиеся только исследуемым признаком. Ручной характер этих задач означает, что мы не можем тестировать много игр одновременно. Кроме того, учитывая многомерный характер художественного произведения, мы можем упустить многие другие возможные факторы, которые могли бы объяснить успех художественного произведения, такие как ориентация фигуры, цвет фона, выражение лица и т. д. Поскольку мы хотим убедиться, что наша среда тестирования позволяет для максимальной свободы творчества и предотвращения прерывания процесса проектирования мы решили попробовать альтернативный подход.

Рисунок. Учитывая многомерный характер художественных работ, сложно разработать A/B-тест для изучения одного аспекта художественного произведения в определенный момент времени. Мы могли упустить многие другие возможные факторы, которые могли бы объяснить успех произведения искусства, такие как ориентация фигуры, цвет фона, выражение лица и т. д.

Причинно-следственная связь

Благодаря нашей Системе персонализации иллюстраций и алгоритмам видения (некоторые из которых приведены здесь в качестве примера), у нас есть богатый набор данных о компонентах рекламных иллюстраций и данных о взаимодействии пользователей для построения причинно-следственной структуры. Используя этот набор данных, мы разработали платформу для проверки творческих идей и оценки их причинно-следственного влияния на производительность произведения искусства с помощью набора данных, созданного с помощью нашей системы рекомендаций. Другими словами, мы можем узнать, какие атрибуты привели к успешному выбору названия на основе его обложки.

Давайте сначала изучим рабочий процесс причинно-следственной структуры, а также данные и показатели успеха, которые ее поддерживают.

Мы представляем успех художественного произведения с помощью показателя популярности: вероятность того, что средний пользователь увидит продвигаемый заголовок после просмотра его рекламного художественного произведения, с поправкой на популярность названия. Каждое шоу на нашей платформе содержит несколько рекламных изображений. Используя Персонализацию произведений искусства от Netflix, мы ежедневно предоставляем эти материалы сотням миллионов пользователей. Чтобы запустить эту систему рекомендаций, мы смотрим на модели взаимодействия пользователей и смотрим, привели ли эти взаимодействия с произведениями искусства к успешному выбору названия.

Имея возможность аннотировать данное изображение (некоторые из которых упомянуты в более раннем посте), в данном случае художественное произведение, мы используем серию алгоритмов компьютерного зрения для сбора метаданных объективного изображения, скрытого представления изображения, а также а также некоторые контекстные метаданные, содержащиеся в данном изображении. Этот процесс позволяет нашему набору данных состоять как из функций изображения, так и из пользовательских данных, чтобы понять, какие компоненты изображения приводят к успешному взаимодействию с пользователем. Мы также используем алгоритмы машинного обучения, информацию о потребителях¹ и корреляционный анализ для обнаружения высокоуровневых ассоциаций между характеристиками изображения и успехом произведения искусства. Эти статистически значимые ассоциации становятся нашими гипотезами для следующего этапа.

Когда у нас есть конкретная гипотеза, мы можем проверить ее, задействовав алгоритмы причинного машинного обучения. Эта структура уменьшает наши экспериментальные усилия по выявлению причинно-следственных связей, принимая во внимание путаницу между переменными высокого уровня (т.е. переменными, которые могут влиять как на лечение/вмешательство, так и на результат).

Гипотеза и предположения

В оставшейся части скрипта мы будем использовать следующую гипотезу: присутствие лица на художественном произведении причинно улучшает производительность актива. (Мы знаем, что лица хорошо работают в художественных работах, особенно изображения с выразительными эмоциями на лице, которые соответствуют тону названия.)

Вот два рекламных изображения от Unbreakable Kimmy Schmidt. Мы знаем, что изображение слева работает лучше, чем изображение справа. Однако разница между ними заключается не только в наличии лица. Есть много других различий, таких как разница в фоне, размещении текста, размере шрифта, размере лица и т. д. Причинно-следственное машинное обучение позволяет нам понять производительность произведения искусства на основе причинно-следственного воздействия его обработки.

Чтобы убедиться, что наша гипотеза подходит для причинно-следственной структуры, важно, чтобы мы рассмотрели идентификационные предположения.

  • Последовательность. Лечебный компонент достаточно четко определен.

Мы используем алгоритмы машинного обучения, чтобы предсказать, содержит ли произведение искусства лицо. Вот почему первое предположение, которое мы делаем, заключается в том, что наш алгоритм обнаружения лиц в основном точен (средняя точность ~ 92%).

  • Положительное/вероятностное назначение. У каждой единицы (художественного произведения) есть некоторый шанс быть обработанным.

Мы рассчитываем показатель склонности (вероятность получения лечения на основе определенных базовых характеристик) наличия лица для выборок с разными ковариатами. Если определенное подмножество произведений искусства (например, произведения искусства определенного жанра) имеет показатель склонности к наличию лица, близкий к 0 или 1, то мы исключаем эти образцы из нашего анализа.

  • Индивидуальное назначение / SUTVA (предположение о стабильной ценности единицы лечения): потенциальные результаты единицы не зависят от лечения, назначенного другим.

Креативщики принимают решение о создании иллюстраций с лицами или без них, исходя из соображений, ограниченных самим интересующим названием. Это решение не зависит от того, имеют ли другие активы лицо или нет.

  • Условная взаимозаменяемость (незапутанность): нет неизмеряемых искажающих факторов.

Это предположение по определению не подлежит проверке. Имея набор данных, мы не можем знать, был ли ненаблюдаемый мешающий фактор. Однако мы можем проверить чувствительность наших выводов к нарушению этого предположения различными способами.

Модели

Теперь, когда мы установили, что наша гипотеза является проблемой причинного вывода, мы можем сосредоточиться на приложении причинного машинного обучения. Модели прогнозного машинного обучения (МО) отлично подходят для поиска закономерностей и ассоциаций для прогнозирования результатов, однако они не очень хороши для объяснения причинно-следственных связей, поскольку их структура модели не отражает причинно-следственную связь (отношение между причиной и следствием). В качестве примера предположим, что мы посмотрели на цену билетов в бродвейский театр и количество проданных билетов. Алгоритм машинного обучения может найти корреляцию между ростом цен и продажами билетов. Если бы мы использовали этот алгоритм для принятия решений, мы могли бы сделать ложный вывод о том, что повышение цены билета приводит к увеличению продаж билетов, если мы не учитываем фактор популярности шоу, который явно влияет как на цены билетов, так и на продажи. Понятно, что билет на бродвейский мюзикл может стоить дороже, если шоу является хитом, однако простое повышение цен на билеты для привлечения большего количества клиентов нелогично.

Causal ML помогает нам оценить эффекты лечения на основе данных наблюдений, где сложно провести чистую рандомизацию. В параллельных публикациях о причинном машинном обучении, таких как Двойное машинное обучение, Причинные леса, Причинные нейронные сети и многих других, был продемонстрирован набор инструментов для исследования эффектов лечения путем объединения знаний предметной области с машинным обучением в системе обучения. . В отличие от прогнозирующих моделей машинного обучения, причинно-следственное машинное обучение явно контролирует вмешивающиеся факторы, моделируя как обработку интереса как функцию вмешивающихся факторов (т. е. оценки склонности), так и влияние вмешивающихся факторов на интересующий результат. При этом Causal ML изолирует причинное влияние лечения на результат. Кроме того, этапы оценки причинного МО тщательно настроены для достижения лучших границ ошибок для предполагаемых эффектов лечения, что является еще одним соображением, которое часто упускают из виду в прогнозирующем МО. По сравнению с более традиционными методами причинно-следственного вывода, основанными на линейных моделях, причинно-следственное машинное обучение использует новейшие методы машинного обучения, чтобы не только лучше контролировать искажающие факторы (когда модели склонности или исхода трудно зафиксировать с помощью линейных моделей), но и более гибко оценивать эффекты лечения (когда лечение неоднородность эффекта нелинейна). Короче говоря, используя алгоритмы машинного обучения, Causal ML предоставляет исследователям основу для понимания причинно-следственных связей с помощью гибких методов ML.

Y : переменная результата (коэффициент принятия)
T : бинарная переменная обработки (наличие лица или нет)
W: вектор ковариат (функции названия и иллюстрации)
X ⊆ W : вектор ковариат (подмножество W), по которому оценивается неоднородность эффекта лечения.

Давайте подробнее рассмотрим этапы применения каузального ML (точнее, двойного ML) для получения творческих идей.

  1. Постройте модель склонности для прогнозирования вероятности лечения (T) с учетом ковариат W.

2. Постройте модель потенциального результата, чтобы предсказать Y, учитывая ковариаты W.

3. Рецидуализация

  • Лечение (наблюдаемое T — прогнозируемое T с помощью модели предрасположенности)
  • Результат (наблюдаемый Y — прогнозируемый Y с помощью модели потенциального результата)

4. Сопоставьте третью модель с остатками, чтобы предсказать средний эффект лечения (ATE) или условный средний эффект лечения (CATE).

Где 𝜖 и η — стохастические ошибки, и мы предполагаем, что E[ 𝜖|T,W] = 0 , E[ η|W] = 0.

Для оценки мешающих функций (т. е. модели оценки склонности и модели результата) мы внедрили модель склонности в качестве классификатора (поскольку у нас есть бинарная переменная лечения — наличие лица) и модель потенциального результата в виде регрессор (поскольку у нас есть непрерывная переменная результата — скорректированная скорость отклика). Мы использовали поиск по сетке для настройки гиперпараметров классификатора и регрессора XGBoosting. Мы также использовали k-кратную перекрестную проверку, чтобы избежать переобучения. Наконец, мы использовали причинный лес по остаткам лечения и переменным результата, чтобы зафиксировать ATE, а также CATE для разных жанров и стран.

Посредничество и модерация

ATE покажет влияние обработки — в данном случае лица в произведении искусства — по всем направлениям. Результат ответит на вопрос, стоит ли применять этот подход ко всем нашим названиям в нашем каталоге, независимо от потенциальных переменных условий, например. жанр, страна и т. д. Еще одно преимущество нашего многофункционального набора данных заключается в том, что мы можем глубоко погрузиться в отношения между атрибутами. Для этого мы можем использовать два метода: посредничество и модерацию.

В своей классической работе Барон и Кенни определяют модератора как качественную (например, пол, раса, класс) или количественную (например, уровень вознаграждения) переменную, которая влияет на направление и/или силу связи между независимыми или переменная-предиктор и зависимая или критериальная переменная. Мы можем исследовать подозреваемых модераторов, чтобы выявить условные средние эффекты лечения (CATE). Например, мы можем подозревать, что эффект от присутствия лица в произведении искусства зависит от жанра (например, некоторые жанры, такие как документальные фильмы о природе, вероятно, меньше выигрывают от присутствия человеческого лица, поскольку заголовки в этих жанрах, как правило, больше фокусируются на несуществующих предметах). -человеческий предмет). Мы можем исследовать эти отношения, включив термин взаимодействия между подозреваемым модератором и независимой переменной. Если член взаимодействия значим, мы можем сделать вывод, что третья переменная является модератором связи между независимыми и зависимыми переменными.

Посредничество, с другой стороны, имеет место, когда третья переменная объясняет отношения между независимой и зависимой переменными. Еще раз процитируем Бэрона и Кенни: «в то время как переменные модератора указывают, когда будут сохраняться определенные эффекты, медиаторы говорят о том, как или почему возникают такие эффекты».

Например, мы заметили, что присутствие более 3 человек негативно влияет на производительность. Возможно, из-за большего количества лиц пользователю будет сложнее сосредоточиться на каком-либо одном лице в активе. Однако, поскольку количество лиц и размер лица, как правило, имеют отрицательную корреляцию (поскольку мы помещаем больше информации в изображение фиксированного размера, каждый отдельный фрагмент информации имеет тенденцию быть меньше), можно также предположить, что отрицательная корреляция с количеством лиц не является во многом зависит от количества людей, изображенных на произведении искусства, а скорее от размера лица каждого отдельного человека, что может повлиять на то, насколько виден каждый человек. Чтобы проверить это, мы можем запустить анализ посредничества, чтобы увидеть, влияет ли размер лица на влияние количества лиц на производительность актива.

Этапы посреднического анализа следующие: мы уже обнаружили корреляцию между независимой переменной (количество лиц) и переменной результата (вовлеченность пользователя) — другими словами, мы заметили, что большее количество лиц связано с меньшим вовлеченность пользователей. Но мы также наблюдаем, что количество лиц отрицательно коррелирует со средним размером лица — лица имеют тенденцию быть меньше, когда больше лиц помещается на один и тот же холст фиксированного размера. Чтобы выяснить, в какой степени размер лица влияет на количество лиц, мы регрессировали вовлеченность пользователей как по среднему размеру лица, так и по количеству лиц. Если 1) размер лица является важным предиктором вовлеченности и 2) значимость предиктивного вклада количества людей падает, мы можем сделать вывод, что размер лица опосредует влияние количества людей на вовлеченность пользователей произведений искусства. Если коэффициент количества людей больше не имеет значения, это показывает, что размер лица полностью опосредует влияние количества лиц на вовлеченность.

В этом наборе данных мы обнаружили, что размер лица лишь частично опосредует влияние количества лиц на эффективность активов. Это означает, что оба фактора влияют на эффективность активов — чем меньше лиц, тем эффективнее, даже если мы учитываем влияние размера лица.

Анализ чувствительности

Как упоминалось выше, допущение об условной взаимозаменяемости (несмешанность) не поддается проверке по определению. Таким образом, крайне важно оценить, насколько чувствительны наши выводы и идеи к нарушению этого предположения. Вдохновленные предыдущей работой, мы провели ряд анализов чувствительности, которые проверили это предположение с разных точек зрения. Кроме того, мы использовали идеи из академических исследований (в первую очередь значение E) и пришли к выводу, что наши оценки устойчивы, даже когда нарушается предположение о несмешанности. Мы активно работаем над разработкой и внедрением стандартизированной основы для анализа чувствительности и поделимся различными приложениями в следующем сообщении в блоге — следите за более подробным обсуждением!

Наконец, мы также сравнили наши предполагаемые эффекты лечения с известными эффектами для конкретных жанров, которые были получены с помощью других различных методов, подтверждая наши оценки с согласованностью для разных методов.

Заключение

Используя каузальную структуру машинного обучения, мы потенциально можем тестировать и идентифицировать различные компоненты рекламных изображений и получать бесценные творческие идеи. Этим постом мы только начали поверхностно исследовать эту интересную задачу. В следующих постах этой серии мы поделимся альтернативными подходами к машинному обучению и компьютерному зрению, которые могут дать представление с причинно-следственной точки зрения. Эти идеи будут направлять и помогать нашей команде талантливых стратегов и креативщиков выбирать и создавать наиболее привлекательные произведения искусства, используя атрибуты, выбранные этими моделями, вплоть до определенного жанра. В конечном итоге это даст членам Netflix лучший и более персонализированный опыт.

Если вас интересуют эти типы испытаний, сообщите нам об этом! Мы всегда ищем замечательных людей, которые вдохновлены причинно-следственными связями, машинным обучением и компьютерным зрением, чтобы присоединиться к нашей команде.

Вклад

Авторы внесли свой вклад в пост следующим образом.

Биллур Энгин была основной движущей силой этого сообщения в блоге, она работала над теорией каузального машинного обучения и ее применением в художественном пространстве. Инхонг Лан в равной степени внес свой вклад в причинно-следственную теорию машинного обучения. Грейс Танг работала над анализом посредничества. Кристина Сегалин спроектировала и извлекла визуальные особенности в масштабе из произведений искусства, использованных в анализе. Грейс Танг и Кристина Сегалин инициировали и концептуализировали проблемное пространство, которое используется в качестве иллюстративного примера в этом посте (изучение факторов, влияющих на вовлеченность пользователей с помощью широкого многомерного анализа характеристик произведений искусства), курировали данные и выполнили первоначальный статистический анализ и построение прогностические модели, поддерживающие эту работу.

Благодарности

Мы хотели бы поблагодарить Шиву Чайтанью за рецензирование этой работы и особую благодарность Шону Райту, Луке Алдаг, Саре Сокель Морхайм и Анне Пулидо, которые помогли сделать это возможным.

Сноски

¹Команда Consumer Insights в Netflix стремится понять участников и нечленов с помощью широкого спектра количественных и качественных методов исследования.