Новая ШІ-мадэль Microsoft стварае 90-хвілінныя падкасты з тэксту

Кампанія запусціла новы адкрыты праект — VibeVoice, які ператварае тэкст у рэалістычную гаворку і здольны генераваць паўнавартасныя падкасты працягласцю да 90 хвілін.

Пакінуць каментарый

У адрозненне ад звыклых рашэнняў на базе Copilot, VibeVoice сфакусаваны выключна на Text-to-Speech (TTS). Карыстальнік уводзіць тэкст, а мадэль ператварае яго ў аўдыёфайл з некалькімі галасамі, імітуючы натуральную гутарку.

Сістэма падтрымлівае да чатырох розных «спікераў» і захоўвае натуральныя паўзы і паслядоўнасць гаворкі, што адрознівае яе ад многіх традыцыйных TTS-мадэляў.

Ужо даступны дзве версіі: з 1,5 мільярда параметраў (генеруе да 90 хвілін гаворкі з кантэкстным акном 64k) і з 7 мільярдаў параметраў (абмежаванне да 45 хвілін пры 32k кантэксце, але больш высокая якасць). У будучыні з’явіцца аблегчаная версія на 0,5 мільярда параметраў, разлічаная на патокавую генерацыю ў рэальным часе.

Для лакальнага запуску спатрэбіцца ад 7 да 18 ГБ відэапамяці GPU, аднак пратэставаць VibeVoice можна і анлайн, скарыстаўшыся вэб-інтэрфейсам. Зараз мадэль навучана толькі на англійскай і кітайскай мовах, але распрацоўшчыкі плануюць дадаць новыя. Зыходны код можна знайсці на GitHub і Hugging Face.

Распрацоўшчыкі адзначаюць, што сістэма ўмее перадаваць эмоцыі і падтрымлівае шматгалоссе, але пакуль слаба спраўляецца са спевамі. У далейшым плануецца ўкараніць кланаванне галасоў. Акрамя відавочных прымяненняў для падкастаў і відэаролікаў, тэхналогія можа стаць каштоўным інструментам для адукацыйных сэрвісаў.

Калі ШІ цалкам заменіць праграмістаў? Навукоўцы: вельмі няхутка
Па тэме
Калі ШІ цалкам заменіць праграмістаў? Навукоўцы: вельмі няхутка
Бізнэсмен прыдумаў фэйкавы ШІ і падмануў інвестараў на $4,5 млн
Па тэме
Бізнэсмен прыдумаў фэйкавы ШІ і падмануў інвестараў на $4,5 млн
ШІ забірае працу ў джуноў — цяпер гэта даказалі навукоўцы
Па тэме
ШІ забірае працу ў джуноў — цяпер гэта даказалі навукоўцы

Читать на dev.by