Какой фильм мне посмотреть сегодня вечером? Вопрос, который мы задаем несколько раз, либо явно - другу, которому мы доверяем его вкус к фильмам, - либо неявно, используя веб-сайт, посвященный фильмам (IMDB), или платформу для контента (Netflix). К счастью, рекомендательные системы (RS), используемые на всех современных потоковых платформах, могут предоставить нам фильмы, которые, вероятно, нам понравятся. Но как работают RS?

RS - это методологии обработки информации, которые сосредоточены на извлечении лучших рекомендаций элементов для пользователей. Например, элементами могут быть фильмы, а пользователи могут быть клиентами контентной платформы. Один из способов получить рекомендацию - использовать совместные знания: пользователя сопоставляют с другими пользователями на основе его / его прошлого поведения, а затем это сопоставление используется для прогнозирования будущих предпочтений. Совместная фильтрация основана на предположении, что пользователи, у которых были похожие предпочтения в прошлом, также будут разделять подобные предпочтения в будущем. С другой стороны, контентные RS используют информацию, которая вытекает из отдельных характеристик фильмов, таких как режиссеры, жанры, места и актеры. Наконец, гибридные RS сочетают в себе методологии совместной работы и методологии, основанные на содержании.

Однако большинство этих методов полагаются на контент, созданный человеком (либо прошлые пользовательские настройки, либо теги контента, помеченные вручную), и не принимают во внимание необработанное содержание самого фильма. Можно ли использовать ИИ для анализа необработанного контента фильма (то есть его субтитров, звука и видео), чтобы узнать, как фильм звучит и выглядит? Такие знания, очевидно, могут повысить производительность систем рекомендаций по фильмам, а также дать пояснительные результаты о предпочтениях пользователя. Я представлю здесь некоторые из результатов, представленных в этой статье, где применяются общие методологии компьютерного зрения, анализа звука и интеллектуального анализа текста на необработанных визуальных, аудио и текстовая информация из фильмов, как было доказано, позволяет лучше оценить сходство фильмов.

Текст может быть извлечен непосредственно из субтитров и не требует сложного анализа и предварительной обработки (относящейся к аудио- и визуальной доменам): после базового анализа , чтобы удалить нежелательную информацию, такую ​​как разметки и временные метки, также исключаются неинформативные слова, которые не добавляют отличительности пленкам (удаление стоп-слов). Также обычно проводится лемматизация, чтобы уменьшить флективные формы.

После этого процесса предварительной обработки каждый фильм можно рассматривать как набор слов. Исходя из этого, каждый фильм может быть дополнительно представлен либо как вектор частот документа с обратной частотой термина (tf-idf), либо с помощью более сложных методов, которые уменьшают размеры представления. Tf-idf на самом деле представляет собой простую схему взвешивания, согласно которой словам документов присваивается вес, обозначающий их важность для конкретного документа. Вместо этого упрощенного подхода могут быть приняты более сложные методологии, такие как скрытое распределение Дирихле (LDA), которое представляет собой вероятностную генеративную модель, построенную на идее, что все документы (фильмы) могут быть рассматривается как смесь определенных тем. Каждая тема - это распределение слов в глобальном словаре коллекции документов (субтитры фильмов). На следующем рисунке в виде облака слов показана одна из тем, извлеченных из примерно 150 фильмов. Размер каждого слова пропорционален важности слова для данной темы. Эта тема явно связана с фильмами о войне:

Такой подход к тематическому моделированию можно использовать для представления каждого фильма как комбинации различных тем, то есть групп слов с разным весом, объединенных в общее семантическое единство. Полезность модели изученных тем для группирования похожих фильмов на основе их релевантности по конкретным темам продемонстрирована на следующем рисунке, где фильмы сгруппированы вместе как совместно тематические, в соответствии с соответствующей темой, извлеченной из текста субтитров:

Этот подход к тематическому моделированию предлагает очень сильное измерение сходства между фильмами, основанное на темах, которые присутствуют в субтитрах, а следовательно, в сюжете самого фильма. Далее мы рассмотрим низкоуровневые функции, которые связаны со звуками и визуальной информацией фильмов, а также то, как эти функции связаны с содержанием фильма.

Мы говорили о содержательной характеристике фильмов на основе их субтитров: очевидно, что если слова «бой», «морской пехотинец» и «сержант» встречаются в двух фильмах, то эти фильмы имеют схожую тему, связанную с войной. Но как насчет низкоуровневых реплик фильмов, которые описывают не только их содержание, но и их стиль? Есть определенные атрибуты фильма, которые заставляют нас (не) любить его и которые не обязательно связаны с темой или метаданными (актеры, жанр, режиссер и т. Д.). Другими словами, два фильма могут быть похожими с точки зрения подсказок, таких как музыкальные саундтреки, звуковые эффекты и движения камеры.

Начнем с аудио информации о фильме: я уверен, вы заметили, что когда другой член вашей семьи смотрит фильм, а вы находитесь в другой комнате, вы можете определить жанр фильма или даже его настроения, несмотря на то, что вы не смотрите его, а слушаете. Темы музыкального фона, музыкальные треки, звуковые эффекты, диалоги и фоновые звуки - все это играет жизненно важную роль в стиле фильма. На графике ниже показано, как некоторые известные фильмы распределяются по музыкальным жанрам: для иллюстрации этого распределения использовались 3 музыкальных жанра, а именно: рок, электроника и классика. Вы можете видеть, что в PI (1998) саундтрек почти на 100% состоит из электронной музыки, в то время как саундтрек сиквела «Матрицы» поровну распределяется между роком и электроникой и т. Д.

Такую информацию можно напрямую извлечь из аудиосигнала фильма, используя временные и спектральные представления характеристик и контролируемые алгоритмы машинного обучения. Используя аналогичные подходы аудиоанализа, фильм можно охарактеризовать по динамикам, звуковым событиям (машины, выстрелы, толпы, крики) и даже эмоциональным состояниям (на основе речи).

Несомненно, визуальная информация может считаться богатейшей областью фильма. Существуют определенные низкоуровневые визуальные функции, которые выражают скрытые семантические атрибуты, которые различают различные кинематографические приемы и содержание фильма. Во-первых, принятые в фильме цвета играют жизненно важную роль в усилиях режиссера по улучшению настроения или акцентированию драматического тона в фильме. Различия в цвете или освещении пленки могут быть связаны либо с изображенными предметами, либо с художественным процессом, поскольку цифровая цветокоррекция преднамеренно применяется для передачи художественной перспективы. Другими словами, в фильмах цвета не только отражают то, что иллюстрируется, но также и как это изображается. На следующем рисунке показаны снимки экрана из известных фильмов, в которых один из цветовых каналов RGB (красный, зеленый, синий) является доминирующим.

В приведенных выше примерах только для случая «В поисках Немо» очевидна причина того, что существует доминирующий цвет (в этом случае синий), который напрямую связан с содержанием фильма (этот фильм является анимацией, и его история играл в океане). Во всех других случаях выбор доминирующего цвета соответствует преднамеренному выбору, сделанному производителями для выражения любого значения (например, красный обычно выбирается для выражения насилия и греха) , настроение или даже определенная эпоха (теплые тона обычно используются в фильмах 60-70-х годов). Наконец, в некоторых случаях принятие доминирующего цвета выражает очень конкретную концепцию сюжета: в Matrix выбор зеленого цвета относится к монохромным мониторам, используемым на ранних этапах вычислений, и используется для отличия от «настоящего» слова. Такие различия можно легко смоделировать, используя простую статистику и вычисления гистограммы среди необработанных значений цвета каждого кадра. Аналогичным образом, статистика освещенности и насыщенности (либо в виде простых средних значений, либо в виде центроидов кластеров, извлеченных посредством обучения без учителя) может различать «темные» и «светлые» фильмы или между « насыщенные »и« ненасыщенные »фильмы, как показано на рисунках ниже:

Неконтролируемое обучение и временной анализ могут использоваться для извлечения изменений в освещении или насыщенности самого фильма. Это можно использовать для различения фильмов с более «стабильными» цветовыми характеристиками от фильмов с резкими изменениями цветовых характеристик. Рассмотрим, например, Убить Билла, где обычно различаются монохромные (ненасыщенные) и чрезвычайно насыщенные кадры:

Наряду с цветом, движение является наиболее важной визуальной характеристикой фильма и сильно различает разные жанры и приемы съемок. Шаблоны движения могут меняться либо из-за движений объектов (следовательно, в зависимости от типов действий), либо из-за методологии движения камеры. Модели движения можно смоделировать путем извлечения оптического потока, который широко изучался в компьютерном зрении и кодировании видео. Посредством оценки векторов потока можно использовать машинное обучение с учителем для классификации движения камеры по определенным классам кинематографических методов, таких как панорамирование (камера вращается горизонтально из фиксированного положения), наклон (камера вращается вертикально из фиксированного положения), пьедестал. (камера движется по вертикальной оси без движения по горизонтальной оси) и грузовик (камера движется влево или вправо без изменения своего перпендикулярного положения). На следующем рисунке представлен типичный пример горизонтального движения камеры и его влияние на извлеченные векторы потока.

Еще одна важная визуальная характеристика кинематографа - наличие лиц и способ их изображения в фильмах. Главные герои фильмов часто снимают крупным планом, чтобы указать на их важность. Лица можно обнаружить с помощью методик компьютерного зрения. Относительный размер лица крупным планом, ориентация лица, а также количество лиц, которые появляются в кадре фильма, могут различать разные кинематографические стили. Например, длинные крупные планы определенных персонажей обычно имеют целью заставить аудиторию взаимодействовать с персонажем. Такие атрибуты могут быть извлечены напрямую, как только лица были обнаружены, с использованием методов компьютерного зрения, примененных к видео в фильме, с использованием простой геометрической статистики.

Помимо цветов, движения и лиц, пленочный переход - важная процедура в кинематографии. Обычно он применяется на этапах постпроизводства и объединяет снимки (последовательности последовательных видеокадров, снятых без перерыва с одной камеры) и сцены. Переход между кадрами обычно выполняется с помощью простых нарезок, иногда также применяются визуальные эффекты перехода. Некоторые режиссеры используют длинные кадры, то есть кадры, которые длиннее, чем обычно. Фильм Альфреда Хичкока Веревка - первый широко известный фильм с большим количеством длинных дублей. Автоматическое обнаружение кадров в видеороликах - широко изучаемая задача компьютерного зрения, обычно учитывающая резкие изменения цвета и движения между последовательными кадрами. На следующем рисунке показано распределение 11 фильмов по средней длине кадра (ось x) и средней длине кадра из 10 лучших (ось y).

В этой статье представлен краткий список примеров того, как мультимодальная аналитика сигналов может использоваться для извлечения знаний из низкоуровневой текстовой, визуальной и звуковой информации о фильмах. Эти извлеченные знания можно использовать для оценки семантического сходства между фильмами, в которых используются скрытые кинематографические и стилистические характеристики. В этой публикации был использован небольшой набор данных из примерно 150 фильмов, чтобы доказать, что функции, описанные в этой статье, могут предложить до 50% повышения производительности системы сходства фильмов по сравнению с простыми метаданными. Такие подходы к представлению контента могут открыть путь для целостных методов рекомендации фильмов, учитывая информацию, которая богаче, чем простые метаданные, которые были вручную предоставлены пользователями или аннотаторами, поскольку такие метаданные просто описывают абстрактные характеристики фильмов, относящиеся к жанрам и темам. или связанные со статическими атрибутами, такими как режиссеры и актеры. Кроме того, новые доступные решения в области глубокого обучения могут предлагать более точные и масштабируемые методы распознавания мультимодального контента: глубокие нейронные сети могут использоваться для извлечения более сложных семантических характеристик фильма, и теперь это может быть достигнуто даже на тысячах реальных наборов данных. фильмов.