Новая нейросеть Microsoft создаёт пугающе реалистичные видео по одной фотографии
Microsoft представила систему VASA-1, которая генерирует реалистичные говорящие лица всего по одной фотографии и аудиозаписи.
VASA-1 чётко синхронизирует движения губ со звуковым фрагментом — причём это могут быть песни или речь не на английском языке, хотя модель на них не обучалась, — и создаёт естественно выглядящие движения головы. Также нейросеть передаёт широкий спектр эмоций и тонкие нюансы мимики, благодаря чему ролики выглядят ещё более натуральными. Пользователь может сам указать, например, куда должен быть направлен взгляд человека на видео и его настроение.
Разработчики подчёркивают эффективность работы нейросети в режиме реального времени. Она способна генерировать видео с разрешением 512*512 пикселей с частотой до 45 кадров в секунду.
Подробнее о новой системе с примерами компания рассказала в своём блоге.
Читать на dev.by