Новая нейросеть Microsoft создаёт пугающе реалистичные видео по одной фотографии

Microsoft представила систему VASA-1, которая генерирует реалистичные говорящие лица всего по одной фотографии и аудиозаписи.

Оставить комментарий

VASA-1 чётко синхронизирует движения губ со звуковым фрагментом — причём это могут быть песни или речь не на английском языке, хотя модель на них не обучалась, — и создаёт естественно выглядящие движения головы. Также нейросеть передаёт широкий спектр эмоций и тонкие нюансы мимики, благодаря чему ролики выглядят ещё более натуральными. Пользователь может сам указать, например, куда должен быть направлен взгляд человека на видео и его настроение.

Разработчики подчёркивают эффективность работы нейросети в режиме реального времени. Она способна генерировать видео с разрешением 512*512 пикселей с частотой до 45 кадров в секунду.

Подробнее о новой системе с примерами компания рассказала в своём блоге.

Люди не могут отличить видео, сгенерированные OpenAI Sora, от настоящих
По теме
Люди не могут отличить видео, сгенерированные OpenAI Sora, от настоящих

Читать на dev.by