Google представила генератор видео по текстовому описанию Lumiere
Компания представила ИИ-генератор видео Lumiere, создающий динамические изображения по текстовому описанию. Разработчики называют инструмент самым мощным среди известных аналогов.
Компания представила ИИ-генератор видео Lumiere, создающий динамические изображения по текстовому описанию. Разработчики называют инструмент самым мощным среди известных аналогов.
Создатели называют сервис «моделью пространственно-временной диффузии для реалистичной генерации видео», основанной на искусственном интеллекте. Отличием Lumiere от аналогов стала уникальная архитектура модели: видео по всей его продолжительности генерируется за один проход. Другие модели генерируют несколько ключевых кадров, а затем производят интерполяцию по времени.
Генератор Google работает в нескольких режимах. Сервис может производить преобразование текста в видео, конвертировать статические изображения в динамические, создавать ролики в заданном стиле на основе образца, редактировать существующее видео по письменным подсказкам, анимировать определенные области статического изображения или редактировать видео фрагментарно.
В компании пояснили, что модель обучали на наборе данных, который включает 30 миллионов роликов с текстовыми описаниями. Видео имеют длину 80 кадров с частотой 16 кадров в секунду. Базовая модель обучена на разрешении 128×128 пикселей. Lumiere генерирует пятисекундные ролики с разрешением 1024×1024 пикселей.
Ранее Google представила модель Imagen Video, которая генерирует ролики разрешением 1280×768 пикселей с частотой кадра 24 кадра в секунду. Однако минусом была меньшая реалистичность, что наблюдается и в аналогичных генераторах, таких как Make-A-Video от Meta, Runway Gen2 и Stable Video Diffusion.
Google отметила, что понимает угрозу, которую могут представлять подобные проекты. «Основная наша цель в этой работе — дать начинающим пользователям возможность генерировать визуальный контент гибко и творчески. Однако существует риск неправомерного [создания] подделок или вредоносного контента при помощи нашей технологии, и мы считаем, что крайне важно разрабатывать и применять инструменты выявления случаев предвзятости и злонамеренного использования, чтобы обеспечить безопасную и добросовестную работу [модели]», — заявили в компании.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Ух ты! С учетом наличия собственного здоровенного облака научились делать много картинок на основе stable diffusion? Ну да, это прорыв в стиле Пакистана. Нет мозгов, зато железа много - давай запустим генерацию картинок быстрее, а потом сложим так, чтобы видосик получался ) И где-то на том конце друг Сарвар хлопает в ладошки - отличный план!
Пользователь отредактировал комментарий 29 января 2024, 02:44