Отдел новостей 19 июня 2024, 12:26

Google представила ИИ для озвучивания видео

Команда Google DeepMind представила инструмент для генерации саундтреков к видео при помощи искусственного интеллекта.

Как отмечают разработчики, ИИ-модели для создания видео развиваются семимильными шагами, но в основном это «немые» видео. Технология V2A («video-to-audio») позволяет оживить их.

Технология даёт возможность сгенерировать музыку в духе ролика, звуковые эффекты и даже диалоги для персонажей по текстовому описанию. ИИ-модель в основе технологии обучали на базе звуков, расшифровок диалогов и видео.

Моделями для порождения музыки и звуков сегодня никого не удивишь. Но по словам разработчиков V2A, отличие их технологии в том, что она способна понимать видеоряд и автоматически синхронизировать сгенерированное аудиосопровождение конкретно под него с учётом запроса пользователя.

В DeepMind признают, что технология небезупречна. А поскольку в обучающем датасете было мало видео с артефактами и другими дефектами, создавать аудио для них у V2A получается не очень. Хотя и с качественными видео она справляется не очень: по мнению TechCrunch, пока на выходе получается набор стереотипных звуков.

Технологию собираются тщательно тестировать, прежде чем открыть доступ к ней для публики. Она должна заинтересовать авторов контента и кинорежиссёров.