Аддзел навін 19 чэрвеня 2024, 12:26

Google паказала АІ для агучвання відэа

Каманда Google DeepMind паказала інструмент для генерацыі саўндтрэкаў да відэа пры дапамозе штучнага інтэлекту.

Як адзначаюць распрацоўшчыкі, АІ-мадэлі для стварэння відэа развіваюцца сямімільнымі крокамі, але ў асноўным гэта «нямыя» відэа. Тэхналогія V2A («video-to-audio») дазваляе ажывіць іх.

Тэхналогія дае магчымасць згенераваць музыку ў духу роліка, гукавыя эфекты і нават дыялогі для персанажаў па тэкставым апісанні. АІ-мадэль у аснове тэхналогіі навучалі на базе гукаў, расшыфровак дыялогаў і відэа.

Мадэлямі для спараджэння музыкі і гукаў сёння нікога не здзівіш. Але, паводле слоў распрацоўшчыкаў V2A, адрозненне іх тэхналогіі ў тым, што яна здольная разумець відэашэраг і аўтаматычна сінхранізаваць згенераванае аўдыясуправаджэнне канкрэтна пад яго з улікам запыту карыстальніка.

У DeepMind прызнаюць, што тэхналогія небездакорная. А паколькі ў навучальным датасэте было мала відэа з артэфактамі ды іншымі дэфектамі, ствараць аўдыя для іх у V2A атрымліваецца не вельмі. Хоць і з якаснымі відэа яна спраўляецца не вельмі: на думку TechCrunch, пакуль на выхадзе атрымліваецца набор стэрэатыпных гукаў.

Тэхналогію збіраюцца старанна тэсціраваць, перш чым адкрыць доступ да яе публіцы. Яна мае зацікавіць аўтараў кантэнту і кінарэжысёраў.