Нейрасетка Microsoft імітуе голас паводле 3-секунднага ўзору
Microsoft паказала мадэль штучнага інтэлекту VALL-E, якая пераўтварае тэкст у маўленне, дакладна імітуючы голас чалавека. Для ўзору дастаткова запісу працягласцю ўсяго 3 секунды. Пры гэтым АІ захоўвае эмацыйную афарбоўку прамовы ўзору, расказвае 3DNews.
Microsoft паказала мадэль штучнага інтэлекту VALL-E, якая пераўтварае тэкст у маўленне, дакладна імітуючы голас чалавека. Для ўзору дастаткова запісу працягласцю ўсяго 3 секунды. Пры гэтым АІ захоўвае эмацыйную афарбоўку прамовы ўзору, расказвае 3DNews.
Пры стварэнні мадэлі выкарыстоўвалася тэхналогія EnCodec ад Meta, якая забяспечвае эфектыўнае сцісканне аўдыясігналу. У адрозненне ад традыцыйных метадаў пераўтварэння тэксту ў маўленне, VALL-E не канструюе гукавых хваль, а аналізуе асаблівасці маўлення чалавека, разбівае гэтыя даныя на асобныя кампаненты і генеруе запіс на аснове таго, што ўжо «ведае» пра ўзор — мадэлюе голас, як ён мог бы гучаць па-за межамі ўзору. Мадэль навучалі на бібліятэцы Meta LibriLight, пабудаванай на 60 тысячах гадзін англамоўнага маўлення больш як 7 тысяч носьбітаў.
Нейрасетка можа прапанаваць некалькі варыянтаў неабходнага тэксту з голасам на ўзоры. Прычым яна не толькі надае голасу на генераваным запісе патрэбную эмацыйную афарбоўку, але і імітуе «акустычнае асяроддзе». Напрыклад, калі зыходны запіс быў зроблены з тэлефоннай размовы, то і вынік будзе нагадваць размову па тэлефоне.
Аўтары праекта кажуць, што сістэма будзе карысная пры распрацоўцы праграм для высакаякаснага пераўтварэння тэксту ў маўленне і пры стварэнні аўдыякантэнту ў спалучэнні з іншымі АІ-генератарамі накшталт GPT-3. Але таксама прызнаюць, што яе можна выкарыстоўваць для рэдагавання аўдыязапісу паводле расшыфроўкі — мадэль можа «прымусіць» чалавека прамаўляць словы, якіх ён ніколі ў рэальнасці не казаў. Праз небяспеку злоўжыванняў тэхналогіяй Microsoft не раскрывае код VALL-E для эксперыментаў, таму ўсе ахвотныя пратэсціраваць яе не змогуць.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.