Новая ШІ-мадэль Microsoft стварае 90-хвілінныя падкасты з тэксту
Кампанія запусціла новы адкрыты праект — VibeVoice, які ператварае тэкст у рэалістычную гаворку і здольны генераваць паўнавартасныя падкасты працягласцю да 90 хвілін.
У адрозненне ад звыклых рашэнняў на базе Copilot, VibeVoice сфакусаваны выключна на Text-to-Speech (TTS). Карыстальнік уводзіць тэкст, а мадэль ператварае яго ў аўдыёфайл з некалькімі галасамі, імітуючы натуральную гутарку.
Сістэма падтрымлівае да чатырох розных «спікераў» і захоўвае натуральныя паўзы і паслядоўнасць гаворкі, што адрознівае яе ад многіх традыцыйных TTS-мадэляў.
Ужо даступны дзве версіі: з 1,5 мільярда параметраў (генеруе да 90 хвілін гаворкі з кантэкстным акном 64k) і з 7 мільярдаў параметраў (абмежаванне да 45 хвілін пры 32k кантэксце, але больш высокая якасць). У будучыні з’явіцца аблегчаная версія на 0,5 мільярда параметраў, разлічаная на патокавую генерацыю ў рэальным часе.
Для лакальнага запуску спатрэбіцца ад 7 да 18 ГБ відэапамяці GPU, аднак пратэставаць VibeVoice можна і анлайн, скарыстаўшыся вэб-інтэрфейсам. Зараз мадэль навучана толькі на англійскай і кітайскай мовах, але распрацоўшчыкі плануюць дадаць новыя. Зыходны код можна знайсці на GitHub і Hugging Face.
Распрацоўшчыкі адзначаюць, што сістэма ўмее перадаваць эмоцыі і падтрымлівае шматгалоссе, але пакуль слаба спраўляецца са спевамі. У далейшым плануецца ўкараніць кланаванне галасоў. Акрамя відавочных прымяненняў для падкастаў і відэаролікаў, тэхналогія можа стаць каштоўным інструментам для адукацыйных сэрвісаў.
Читать на dev.by