Новая модель Google создаёт подобие 3D-игр по текстовому запросу
ИИ-подразделение Google DeepMind представило 2 поколение модели Genie. Новинка генерирует интерактивные видео по одному исходному изображению и текстовому описанию пользователя, пишет TechCrunch.
По словам разработчиков, Genie 2 способна создавать бесконечное множество насыщенных 3D-миров, в том числе такие, в которых пользователь может выполнять различные действия, например плавать и прыгать, управляя ими при помощи мыши или клавиатуры. Модель умеет имитировать взаимодействие между предметами, движение, освещение, физику, отражения и поведение виртуальных персонажей.
TechCrunch отмечает, что многие работы Genie 2 напоминают сцены из ААА-игр — вполне возможно, потому, что среди обучающих видеороликов были эпизоды из популярных видеоигр. Однако подробности о своих источниках данных и методах их сбора компания по причинам конкуренции и иным не раскрывает. DeepMind имеет беспрепятственный доступ к видеороликам на YouTube, но Genie 2 по сути создаёт несанкционированные копии видеоигр, которые «смотрела», из-за чего к ней могут возникнуть претензии по поводу интеллектуальной собственности.
Genie 2 создаёт целостные виртуальные миры с видом с разных ракурсов, например от первого и третьего лица, с изометрической проекцией и так далее. Ролики длятся до одной минуты, в основном — 10-20 секунд.
Также Genie 2 умеет запоминать части смоделированной сцены, которые выходят из поля зрения в процессе взаимодействия с героем, и качественно воссоздаёт их, когда они снова в кадре. DeepMind позиционирует новинку, скорее, как инструмент для творчества и исследований — например, для создания прототипов интерактивных сцен и тестирования ИИ-агентов.
Читать на dev.by