Аддзел навін 19 сакавіка 2024, 14:38

Google паказала мадэль, якая «ажыўляе» людзей на фотаздымках

Google паказала АІ-мадэль VLOGGER, якая генеруе рэалістычныя відэа людзей у часе размовы па фота і аўдыя.

На ўваход мадэль прымае фатаграфіі і аўдыядарожкі. На аснове іх яна стварае відэа людзей, якія прамаўляюць зададзеную прамову з адпаведнай мімікай, рухамі галавы і жэстыкуляцыяй.

Адрозненне VLOGGER ад іншых падобных распрацовак у тым, што яна не патрабуе асобнага навучання для кожнага чалавека, не заснаваная на распазнанні і выразанні твараў, стварае поўную выяву чалавека, а не толькі твару або вуснаў, а таксама ўлічвае кантэкстуальныя дэталі (напрыклад, бачны торс або асаблівасці выгляду людзей), важныя для правільнага аднаўлення людзей, якія размаўляюць.

VentureBeat адзначае, што відэа не ідэальныя і на іх заўважныя артэфакты, аднак называе мадэль вялікім скачком у «ажыўленні» статычных выяў. Падобныя інструменты маюць шырокія магчымасці для практычнага прымянення, напрыклад, у дубляжы відэаролікаў або для запаўнення адсутных фрагментаў, але разам з тым нясуць у сабе рызыкі, звязаныя з дыпфэйкамі і распаўсюджваннем дэзынфармацыі.

Падрабязней пра новую мадэль кампанія расказала ў навуковай працы.