Дапамажыце dev.by 🤍
Падтрымаць

Новая ШІ-мадэль Microsoft стварае 90-хвілінныя падкасты з тэксту

Кампанія запусціла новы адкрыты праект — VibeVoice, які ператварае тэкст у рэалістычную гаворку і здольны генераваць паўнавартасныя падкасты працягласцю да 90 хвілін.

Пакінуць каментарый
Новая ШІ-мадэль Microsoft стварае 90-хвілінныя падкасты з тэксту

Кампанія запусціла новы адкрыты праект — VibeVoice, які ператварае тэкст у рэалістычную гаворку і здольны генераваць паўнавартасныя падкасты працягласцю да 90 хвілін.

У адрозненне ад звыклых рашэнняў на базе Copilot, VibeVoice сфакусаваны выключна на Text-to-Speech (TTS). Карыстальнік уводзіць тэкст, а мадэль ператварае яго ў аўдыёфайл з некалькімі галасамі, імітуючы натуральную гутарку.

Сістэма падтрымлівае да чатырох розных «спікераў» і захоўвае натуральныя паўзы і паслядоўнасць гаворкі, што адрознівае яе ад многіх традыцыйных TTS-мадэляў.

Ужо даступны дзве версіі: з 1,5 мільярда параметраў (генеруе да 90 хвілін гаворкі з кантэкстным акном 64k) і з 7 мільярдаў параметраў (абмежаванне да 45 хвілін пры 32k кантэксце, але больш высокая якасць). У будучыні з’явіцца аблегчаная версія на 0,5 мільярда параметраў, разлічаная на патокавую генерацыю ў рэальным часе.

Для лакальнага запуску спатрэбіцца ад 7 да 18 ГБ відэапамяці GPU, аднак пратэставаць VibeVoice можна і анлайн, скарыстаўшыся вэб-інтэрфейсам. Зараз мадэль навучана толькі на англійскай і кітайскай мовах, але распрацоўшчыкі плануюць дадаць новыя. Зыходны код можна знайсці на GitHub і Hugging Face.

Распрацоўшчыкі адзначаюць, што сістэма ўмее перадаваць эмоцыі і падтрымлівае шматгалоссе, але пакуль слаба спраўляецца са спевамі. У далейшым плануецца ўкараніць кланаванне галасоў. Акрамя відавочных прымяненняў для падкастаў і відэаролікаў, тэхналогія можа стаць каштоўным інструментам для адукацыйных сэрвісаў.

Калі ШІ цалкам заменіць праграмістаў? Навукоўцы: вельмі няхутка
Калі ШІ цалкам заменіць праграмістаў? Навукоўцы: вельмі няхутка
Па тэме
Калі ШІ цалкам заменіць праграмістаў? Навукоўцы: вельмі няхутка
Бізнэсмен прыдумаў фэйкавы ШІ і падмануў інвестараў на $45 млн
Бізнэсмен прыдумаў фэйкавы ШІ і падмануў інвестараў на $4,5 млн
Па тэме
Бізнэсмен прыдумаў фэйкавы ШІ і падмануў інвестараў на $4,5 млн
ШІ забірае працу ў джуноў — цяпер гэта даказалі навукоўцы
ШІ забірае працу ў джуноў — цяпер гэта даказалі навукоўцы
Па тэме
ШІ забірае працу ў джуноў — цяпер гэта даказалі навукоўцы
Чытайце таксама
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.