Тони Джебара, директор по исследованиям в области машинного обучения в Netflix, недавно выступил на саммите по глубокому обучению в Сан-Франциско, 26–27 января.

Десять лет назад Netflix запустил задачу предсказать, как каждый пользователь оценит каждый фильм в своем каталоге. Это ускорило развитие науки о машинном обучении и матричной факторизации. С тех пор алгоритмы обучения и модели Netflix эволюционировали с множеством уровней, стадий и нелинейностей. Сегодня они используют машинное обучение и глубокие варианты для ранжирования большого каталога, определяя релевантность каждого из своих заголовков для каждого из своих пользователей, то есть персонализированный выбор контента. Они также используют машинное обучение, чтобы найти, как лучше всего представить пользователю элементы с самым высоким рейтингом. Это включает в себя выбор лучших изображений для отображения для каждого заголовка специально для вас, то есть персонализированный выбор изображений.

На саммите по глубокому обучению Тони представил: «Персонализированный выбор контента и изображений». Если вы пропустили сеанс, мы делимся своими заметками из презентации.

Тони начал свой сеанс со слов Галилея и идеи о том, что сначала нужно найти гипотезу, а затем пойти и собрать данные. Однако «вместо того, чтобы сидеть под деревом и придумывать одну из них, мы теперь исследуем миллиарды и триллионы гипотез». Из миллиарда гипотез нужно выяснить, какая из них верна.

Машинное обучение

Для машинного обучения необходимо сосредоточить внимание на двух ключевых областях:

  1. Собирайте массивные наборы данных
  2. Попробуйте миллиарды гипотез, чтобы найти * одну (и) с поддержкой

Наблюдение за погодой в течение многих дней с использованием двоичного числа (0,1), где 0 - да, будет дождь, а 1 - нет, дождь не будет. Точно так же мы можем рассматривать пасмурное или солнечное небо как другую двоичную переменную.

Хотя мы можем узнать распределение вероятностей из наблюдений, когда они содержат всего несколько переменных, когда есть тысячи переменных, гораздо сложнее описать их вероятность вместе. Мы сохраняем управляемость, ограничивая взаимодействие между переменными через сеть. Это дает лучшую вычислительную и статистическую эффективность.

Повествование

Повествование ведется на тысячи лет назад, к истокам человечества. Когда это применяется в цифровом виде, рассказчик не знает, занят ли слушатель (например, смеется, хмурится и т. Д.). Netflix действует как рассказчик своих клиентов (слушателей).

В Netflix они наблюдают за тем, как миллионы людей взаимодействуют с их сайтом, и выясняют, что им нравится, что заставляет их перематывать вперед, выключать и т. Д. Все эти данные добавляются в модель машинного обучения, которая используется для понимания data и получите четкое представление о каждом пользователе.

Машинное обучение в Netflix

Netflix фокусируется на 6 ключевых областях:

Рейтинг и расположение

Весь каталог фильмов и шоу на Netflix ранжируется и упорядочивается для каждого пользователя индивидуально. Netflix может определить любимые шоу клиентов на основе того, что они смотрели. Если клиент Z посмотрел несколько комедий, можно предположить, что он интересуется комедийными фильмами / шоу. Таким образом, комедия будет иметь более высокий рейтинг, чем фильмы / шоу, к которым они не проявляли интереса.

Поэтому на веб-сайте Netflix ранжирует фильмы, перечисляя вверху те, которые наиболее соответствуют интересам клиента. Они также составляют ранжирование, где первая строка - это, скажем, лучший выбор, вторая - детский телевизор, третья - Rom-Coms и т. Д. Однако это усложняет задачу.

Сходство и продвижение

Другая ключевая область - уловить сходство между фильмами, чтобы сделать полезные предложения пользователям, например, категоризация путем нахождения других заголовков, связанных с тем, что пользователь недавно смотрел. Другой ключевой вопрос, над которым размышляет Netflix, - «как мы продвигаем новые фильмы, о которых пользователи не знают?». Это достигается за счет понимания того, что пользователям нравится, и истории на сайте, а затем возможности предлагать похожие фильмы.

Свидетельства и поиск

С помощью тестирования можно установить корреляцию между интересами людей, историей просмотров и т. Д. Результаты этих тестов свидетельствуют о том, что работает, а что нет. Улучшенный поиск и приобретение новых фильмов, чтобы побудить людей зарегистрироваться, - это проблема машинного обучения.

Улучшение моделей

Первый этап - это период сбора данных в течение нескольких месяцев. Затем проводится A / B-тестирование, чтобы определить, лучше ли эта новая модель, чем текущая. Итак, A - это старая модель, а B - новый соперник, которого они только что изобрели. Половина пользователей получает новую модель, а половина пользователей - старую, и результаты анализируются, чтобы решить, какая модель будет развернута.

Есть много проблем с пакетным обучением, может пройти много времени, прежде чем выясняется, что лучше всего для пользователей, а затем пользователи получат худший опыт, пока модели не будут полностью изучены и протестированы.

Изучение / использование обучения

Для изучения / использования обучения Netflix пробует большое количество гипотез и исключает те, которые не работают так же хорошо, как другие.

  1. Единообразные гипотезы населения
  2. Выбрать случайную гипотезу h
  3. Действуйте согласно h и наблюдайте за результатом
  4. Перевесить гипотезы
  5. Go to 2

Netflix использует изучение / использование обучения, чтобы найти, какие изображения лучше всего описывают фильмы; поэтому Netflix изменяет изображения, представляющие фильм, в соответствии с потребностями каждого покупателя. Чтобы добиться успеха, Netflix запускает тесты, чтобы увидеть, какие изображения лучше подходят для каждого фильма и как другие факторы, такие как жанровые предпочтения клиентов, влияют на их выбор.

Вопросы и ответы

1. Используется ли машинное обучение в шоу?

Мы занимаемся машинным обучением по всему каталогу. Машинное обучение оценивает шоу и предсказывает, какие из них будут лучше всего.

2. Вы проводите анализ кадров видео?

Мы проанализировали изображения и кадры видеороликов, но мы не делаем это на том уровне, на котором отдельные изображения в фильме действительно влияют на наши рекомендации.

3. Адаптация снимков экрана к тому, что смотрят люди (например, комедия). Сколько нужно сделать людям, например, чтобы сказать, что Робин Уильямс забавный?

Никто не аннотирует эти изображения. Мы используем исследование и использование и случайным образом отправляем изображения пользователям и смотрим их ответы относительно того, нажимают ли они, а также учитывая историю пользователя. Это не редакционный процесс, это все на основе отзывов наших пользователей.

Войдите / зарегистрируйтесь здесь, чтобы получить доступ к презентациям Саммита глубокого обучения и Саммита виртуальных помощников. Вы можете купить членство, которое позволит вам получать доступ ко всему нашему замечательному контенту в течение 12 месяцев. Свяжитесь с [email protected] для получения более подробной информации.

Мы будем проводить Саммит глубокого обучения в Лондоне 21–22 сентября, одновременно с Саммитом виртуальных помощников. Зарегистрируйтесь здесь.

Другие предстоящие саммиты включают:

Посмотреть полный календарь событий можно здесь.