AVA: искусство и наука поиска изображений в Netflix

Анна Гуляева

8 лет назад

В Netflix команды разработки контента платформы и глобального продукта знают, что изображения играют важную роль в том, как пользователи находят новые фильмы и сериалы. Мы гордимся, что раскрываем уникальные элементы истории, которые связывают зрителей с разнообразными характерами и сюжетными линиями. Так как количество оригинального контента продолжает увеличиваться, нашим техническим экспертам приходится находить новые способы применения наших ресурсов, чтобы освободить наших сотрудников от все возрастающих требований цифрового мерчендайзинга. Один из способов — получать кадры для обложек напрямую из видео.

Бизнес-кейс

Изображения для продвижения — это статичные кадры из видео, которые используются для того, чтобы продвигать фильм или сериал на Netflix. В одном часовом эпизоде “Очень странных дел” есть почти 86 тысяч кадров.

Традиционно такие кадры отбираются редакторами и требуют экспертизы содержимого. Через A/B тестирование мы знаем, что можем повысить количество просмотров от разных групп зрителей, показывая как можно больше вариантов представления фильма или сериала. Когда дело доходит до ключевого изображения, мы тестируем множество вариантов, чтобы найти правильное изображение для конкретной аудитории. Но это одновременно как интересная возможность для инноваций и тестирования, так и очень сложная задача по организации этого опыта для каждого эпизода или кино в нашем растущем каталоге.

Персонализация обложек в Netflix

AVA

AVA — это коллекция инструментов и алгоритмов, созданных, чтобы получить качественные изображения для представления видео в нашем сервисе. Один сезон сериала в среднем содержит около 9 миллионов кадров. Просить редакторов разобрать все кадры, чтобы найти нужное изображение, неэффективно. Мы решили создать инструмент, который будет быстро и эффективно идентифицировать лучшие кадры.

Чтобы достичь этой цели, мы сначала выработали сигналы, которыми можно будет определить качество каждого кадра при помощи Frame Annotations. В результате мы смогли получить эффективное представление о каждом кадре видео. Затем мы создали алгоритмы для оценки показателей эстетики и разнообразия, чтобы мы могли точно представить разносторонний контент для каждого продукта.

Frame Annotation

Для процесса автоматизации мы создаем аннотации для множества разных переменных в кадре, чтобы лучше понять, что содержит кадр, и понять, важен он для истории или нет. Для более эффективной обработки видео и возможности масштабирования мы использовали фреймворк Archer. Он позволил нам разбить видео на меньшие части, которые можно обрабатывать параллельно. Так мы смогли интегрировать больше умных алгоритмов в набор инструментов.

Каждый кадр видео обрабатывается несколькими алгоритмами компьютерного зрения, чтобы собирать объективные метаданные о кадре, репрезентацию кадра и некоторые контекстные метаданные. Свойства аннотаций можно разделить на три категории.

Визуальные метаданные

Обычно эти свойства объективны, их можно измерить и обнаружить на уровне пикселей. Например, визуальные свойства — это яркость, цвет, контрастность и размытие.

Контекстные метаданные

Контекстные метаданные состоят из элементов, которые включают действия или движение актеров, объектов и положения камеры в кадре. Несколько примеров:

Обнаружение лиц: информация об отличительных признаках лица, оценка положения или анализ эмоций, которая позволяет нам оценить положение и чувства людей в кадре.
Оценка движения позволяет нам оценить количество движений камеры и субъекта в конкретном кадре. Так мы можем контролировать размытие, а также идентифицировать движение камеры, которое показывает интересные неподвижные изображения.
Идентификация положения камеры помогает нам оценить намерения режиссера, а также быстро оценить стилистические решения, которые расскажут о настроении, тоне и жанре фильма или сериала.
Обнаружение объектов помогает нам понять важность объектов в кадре.

Оценка черт лица и позы, которая помогает понять, имеют ли герои в кадре интересные выражения лица.

Анализ для предсказания движения камеры и типа съемки.

Метаданные о композиции

Метаданные о композиции относятся к особому набору эвристических характеристик, которые мы определили на основе ключевых принципов фотографии, кинематографии и визуального дизайна. Это, например, правило третей, глубины резкости и симметрии.

Ранжирование изображений

После обработки и аннотирования каждого кадра в видео следующий шаг — обнаружить лучшие кадры при помощи алгоритмов. Так наши команды смогут работать с набором качественных изображений. Вот некоторые ключевые элементы, по которым мы находим лучшие изображения.

Актеры

Актеры играют очень важную роль в выборе изображений. Мы идентифицируем ключевого героя эпизода при помощи группировки лиц и распознавания актеров. Для этого мы обучили нейронную сеть, которая ищет схожие черты лица между кадрами и отбирает основных актеров фильма или серии, не зная ничего об участниках съемочной команды. Помимо этого, мы принимаем во внимание позу актера, черты лица и общее расположение героев в отношении к конкретному участнику фильма.

Пример группировки изображений, ранжирования кадров и оптимальный выбор для Вайноны Райдер в роли Джойс Байерс.

Примеры неудачных кадров из-за выражения лица, позы или размытия.

Разнообразие кадров

Визуальное разнообразие очень субъективно, так как существует много разных способов воспринимать изображения. В контексте нашего решения разнообразие изображений больше относится к способности алгоритмов уловить эвристические различия, которые естественным образом появляются в фильме или серии.

Таким образом мы надеемся создать механизм, которые позволит быстро понять, какие элементы являются наиболее репрезентативными. Некоторые из визуальных эвристик в AVA включают типы кадров (съемка с дальнего расстояния или со среднего), визуальное сходство (правило третей, яркость, контраст), цвет и кадры идентификации негативного пространства и сложности кадра. При помощи этих показателей мы можем эффективно разместить изображения на векторе разнообразия. Более того, мы можем создать показатель разнообразия, по которому можно будет оценить любой потенциальный кадр.

Пример кадров с различиями по дистанции: средний план, крупный план и очень крупный план.

Фильтры взрослого контента

По причинам разного возраста аудитории нам необходимо исключать кадры с неподходящими элементами. Критериями для исключения являются: секс, обнаженные сцены, текст, логотипы, жестокость и кровь. Чтобы понизить приоритет таких кадров, мы разместили вероятность присутствия этих элементов на векторах, что позволяет нам оценивать эти изображения ниже, чем остальные.

В качестве вторичных элементов и обратной связи для ранжирования мы также добавили такие элементы, как жанр, формат контента, возрастной рейтинг.