Google паказала АІ для агучвання відэа
Каманда Google DeepMind паказала інструмент для генерацыі саўндтрэкаў да відэа пры дапамозе штучнага інтэлекту.
Як адзначаюць распрацоўшчыкі, АІ-мадэлі для стварэння відэа развіваюцца сямімільнымі крокамі, але ў асноўным гэта «нямыя» відэа. Тэхналогія V2A («video-to-audio») дазваляе ажывіць іх.
Тэхналогія дае магчымасць згенераваць музыку ў духу роліка, гукавыя эфекты і нават дыялогі для персанажаў па тэкставым апісанні. АІ-мадэль у аснове тэхналогіі навучалі на базе гукаў, расшыфровак дыялогаў і відэа.
Мадэлямі для спараджэння музыкі і гукаў сёння нікога не здзівіш. Але, паводле слоў распрацоўшчыкаў V2A, адрозненне іх тэхналогіі ў тым, што яна здольная разумець відэашэраг і аўтаматычна сінхранізаваць згенераванае аўдыясуправаджэнне канкрэтна пад яго з улікам запыту карыстальніка.
У DeepMind прызнаюць, што тэхналогія небездакорная. А паколькі ў навучальным датасэте было мала відэа з артэфактамі ды іншымі дэфектамі, ствараць аўдыя для іх у V2A атрымліваецца не вельмі. Хоць і з якаснымі відэа яна спраўляецца не вельмі: на думку TechCrunch, пакуль на выхадзе атрымліваецца набор стэрэатыпных гукаў.
Тэхналогію збіраюцца старанна тэсціраваць, перш чым адкрыць доступ да яе публіцы. Яна мае зацікавіць аўтараў кантэнту і кінарэжысёраў.
Читать на dev.by