Google представила нейросеть, которая генерирует видео по тексту

Google анонсировала нейросеть Imagen Video, которая способна генерировать небольшие ролики на основе текстового описания.

Оставить комментарий

Аналогичные нейросети уже существуют — например, китайская CogVideo. Но как отмечает TechCrunch, разработка Google на порядок лучше понимает более сложный вводный текст. Также она хорошо справляется с передачей глубины и трёхмерности, благодаря чему без искажения отрисовывает предметы в движении и с разных углов. Хотя и её результаты пока не идеальны — на роликах заметны шум и артефакты.

Imagen Video построена на основе нейросети Imagen для порождения картинок, тоже разработки Google. Она генерирует коротки ролики из 16 кадров с частотой 3 кадра в секунду и разрешением 24×48 пикселей, после чего «додумывает» остальные кадры. На выходе получается видео на 128 кадров с частотой 24 кадра в секунду в качестве 720p (1280×768 пикселей).

Система обучалась на 14 млн пар видеороликов и текстовых описаний и 60 млн пар текста и изображений, а также на базе картинок из публичного датасета LAION-400M. ИИ-система умеет работать в разных графических стилях — например, имитировать Ван Гога или акварель.

Выкладывать в открытый доступ ни модель, ни исходный код компания пока не будет, как и запускать листы ожидания — Google опасается, что Imagen Video могут использовать для создания контента с изображением насилия или сексуального характера. Разработчики не хотят делиться нейросетью, пока не решат эту проблему.

Неделю назад нейросеть Make-A-Video с такой же функцией представила Meta. Но компания Марка Цукерберга уже собирает заявки от всех, кому интересно пощупать демо-версию, когда разработчики будут готовы ею поделиться.


Читать на dev.by