Отдел новостей 19 марта 2024, 14:38

Google представила модель, которая «оживляет» людей на фотографиях

Google показала ИИ-модель VLOGGER, которая генерирует реалистичные видео говорящих людей по фото и аудио.

На вход модель принимает фотографии и аудиодорожки. На основе них она создаёт видео людей, которые произносят заданную речь с соответствующей мимикой, движениями головы и жестикуляцией.

Отличие VLOGGER от других подобных разработок в том, что она не требует отдельного обучения для каждого человека, не основана на распознавании и вырезании лиц, создаёт полное изображение человека, а не только лица или губ, а также учитывает контекстуальные детали (например, видимый торс или особенности внешности людей), которые важны для правильного воссоздания общающихся людей.

VentureBeat отмечает, что видео не идеальны и на них заметны артефакты, однако называет модель большим скачком в «оживлении» статичных изображений. Подобные инструменты имеют широкие возможности для практического применения, например в дубляже видеороликов или для заполнения недостающих фрагментов, но вместе с тем несут в себе риски, связанные с дипфейками и распространением дезинформации.

Подробнее о новой модели компания рассказала в научной работе.