Дапамажыце dev.by 🤍
Падтрымаць

Новая ШІ-мадэль Microsoft стварае 90-хвілінныя падкасты з тэксту

Кампанія запусціла новы адкрыты праект — VibeVoice, які ператварае тэкст у рэалістычную гаворку і здольны генераваць паўнавартасныя падкасты працягласцю да 90 хвілін.

Пакінуць каментарый
Новая ШІ-мадэль Microsoft стварае 90-хвілінныя падкасты з тэксту

Кампанія запусціла новы адкрыты праект — VibeVoice, які ператварае тэкст у рэалістычную гаворку і здольны генераваць паўнавартасныя падкасты працягласцю да 90 хвілін.

У адрозненне ад звыклых рашэнняў на базе Copilot, VibeVoice сфакусаваны выключна на Text-to-Speech (TTS). Карыстальнік уводзіць тэкст, а мадэль ператварае яго ў аўдыёфайл з некалькімі галасамі, імітуючы натуральную гутарку.

Сістэма падтрымлівае да чатырох розных «спікераў» і захоўвае натуральныя паўзы і паслядоўнасць гаворкі, што адрознівае яе ад многіх традыцыйных TTS-мадэляў.

Ужо даступны дзве версіі: з 1,5 мільярда параметраў (генеруе да 90 хвілін гаворкі з кантэкстным акном 64k) і з 7 мільярдаў параметраў (абмежаванне да 45 хвілін пры 32k кантэксце, але больш высокая якасць). У будучыні з’явіцца аблегчаная версія на 0,5 мільярда параметраў, разлічаная на патокавую генерацыю ў рэальным часе.

Для лакальнага запуску спатрэбіцца ад 7 да 18 ГБ відэапамяці GPU, аднак пратэставаць VibeVoice можна і анлайн, скарыстаўшыся вэб-інтэрфейсам. Зараз мадэль навучана толькі на англійскай і кітайскай мовах, але распрацоўшчыкі плануюць дадаць новыя. Зыходны код можна знайсці на GitHub і Hugging Face.

Распрацоўшчыкі адзначаюць, што сістэма ўмее перадаваць эмоцыі і падтрымлівае шматгалоссе, але пакуль слаба спраўляецца са спевамі. У далейшым плануецца ўкараніць кланаванне галасоў. Акрамя відавочных прымяненняў для падкастаў і відэаролікаў, тэхналогія можа стаць каштоўным інструментам для адукацыйных сэрвісаў.

Калі ШІ цалкам заменіць праграмістаў? Навукоўцы: вельмі няхутка
Калі ШІ цалкам заменіць праграмістаў? Навукоўцы: вельмі няхутка
Па тэме
Калі ШІ цалкам заменіць праграмістаў? Навукоўцы: вельмі няхутка
Бізнэсмен прыдумаў фэйкавы ШІ і падмануў інвестараў на $45 млн
Бізнэсмен прыдумаў фэйкавы ШІ і падмануў інвестараў на $4,5 млн
Па тэме
Бізнэсмен прыдумаў фэйкавы ШІ і падмануў інвестараў на $4,5 млн
ШІ забірае працу ў джуноў — цяпер гэта даказалі навукоўцы
ШІ забірае працу ў джуноў — цяпер гэта даказалі навукоўцы
Па тэме
ШІ забірае працу ў джуноў — цяпер гэта даказалі навукоўцы
Чытайце таксама
Microsoft прызнала, што амаль усе асноўныя кампаненты Windows 11 зламаныя
Microsoft прызнала, што амаль усе асноўныя кампаненты Windows 11 зламаныя
Microsoft прызнала, што амаль усе асноўныя кампаненты Windows 11 зламаныя
1 каментарый
Google абнавіла Nano Banana: генератар цяпер стварае постары і інфаграфіку
Google абнавіла Nano Banana: генератар цяпер стварае постары і інфаграфіку
Google абнавіла Nano Banana: генератар цяпер стварае постары і інфаграфіку
«Ніякай ШІ-бурбалкі няма»: Nvidia адзначылася аб рэкорднай выручцы
«Ніякай ШІ-бурбалкі няма»: Nvidia адзначылася аб рэкорднай выручцы
«Ніякай ШІ-бурбалкі няма»: Nvidia адзначылася аб рэкорднай выручцы
Цяпер групавыя чаты ChatGPT даступныя ўсім
Цяпер групавыя чаты ChatGPT даступныя ўсім
Цяпер групавыя чаты ChatGPT даступныя ўсім

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.