За последние несколько дней пакет под названием Deep Live Cam получил широкую освещение в социальных сетях, потому что он может взять лицо человека из одной фотографии и применить его к видео с веб-камеры в реальном времени, следя за позой, освещением и выражением лица человека, который снимается. Хотя результаты не идеальны, программа показывает, как быстро развиваются технологии и как возможность обманывать других людей удаленно становится все проще с течением времени.
Проект Deep Live Cam разрабатывается с конца прошлого года, но видеоролики, на которых человек имитирует Элона Маска и кандидата в вице-президенты от Республиканской партии Джей Ди Вэнса (среди прочих) в режиме реального времени, уже успели разойтись по сети. Лавина внимания ненадолго вывела проект с открытым исходным кодом на первое место в списке самых популярных репозиториев GitHub (на данный момент он находится на 4-м месте), где его можно скачать бесплатно.
«Странно, что все основные инновации, появившиеся в последнее время в сфере технологий, подходят для мошенничества», — написал иллюстратор Кори Брикли в теме X, реагируя на пример видео с Deep Live Cam в действии. В другом сообщении он написал: «Не забывайте устанавливать кодовые слова со своими родителями», имея в виду возможность использования подобных инструментов для удаленного обмана и концепцию использования безопасного слова, распространенного среди друзей и членов семьи, для установления вашей истинной личности.
Технология подмены лиц не нова. Сам термин «deepfake» появился в 2017 году благодаря пользователю Reddit под ником «deepfakes» (объединяющим термины «deep learning» и «fakes»), который выкладывал порнографию, в которой лицо исполнителя менялось с лицом знаменитости. В то время технология была дорогой, медленной и не работала в режиме реального времени. Однако благодаря таким проектам, как Deep Live Cam, эту технологию все проще использовать в домашних условиях, имея обычный ПК и бесплатное программное обеспечение.
Как работает Deep Live Cam
Как и многие другие проекты с открытым исходным кодом на GitHub, Deep-Live-Cam объединяет несколько существующих программных пакетов под новым интерфейсом (и сам является форком более раннего проекта под названием roop). Сначала он обнаруживает лица на исходном и целевом изображениях (например, на кадрах видео в реальном времени). Затем использует предварительно обученную модель искусственного интеллекта под названием inswapper для выполнения фактической замены лиц и другую модель под названием GFPGAN для улучшения качества замененных лиц путем улучшения деталей и исправления артефактов, возникающих в процессе замены лиц.
Модель подмены лиц, разработанная проектом InsightFace, может угадать, как может выглядеть человек (на предоставленной фотографии), используя различные выражения и под разными углами, поскольку она была обучена на обширном наборе данных, содержащем миллионы изображений лиц тысяч людей, снятых под разными углами, при различных условиях освещения и с различными выражениями.
В процессе обучения нейронная сеть, лежащая в основе модели inswapper, развила «понимание» структуры лица и ее динамики в различных условиях, в том числе научилась определять трехмерную структуру лица по двухмерному изображению. Она также стала способна отделять специфические для личности черты, которые остаются неизменными на разных изображениях одного и того же человека, от специфических для позы черт, которые меняются в зависимости от ракурса и выражения. Такое разделение позволяет модели генерировать новые изображения лиц, которые сочетают в себе идентичность одного лица с позой, выражением и освещением другого.
Deep Live Cam — далеко не единственный программный проект по замене лиц. Другой проект на GitHub под названием facefusion использует ту же модель ИИ для замены лиц с другим интерфейсом. Большинство из них в значительной степени опираются на Python и библиотеки глубокого обучения, таких как PyTorch, поэтому Deep Live Cam пока не так просто установить в один клик. Но вполне вероятно, что со временем такие возможности по замене лиц станут еще проще, а их качество будет улучшаться по мере того, как люди будут повторять и развивать работу друг друга в области разработки ИИ с открытым исходным кодом.