З’явіўся першы сінтэз беларускага маўлення. Чаму гэта важна
На інтэрнэт-рэсурсе «Беларускі N-корпус» з’явіўся першы сінтэз беларускага маўлення — пакуль што тэставая версія, але даступная для ўсіх ахвотных.
Сайт «Беларускі N-корпус» — гэта праект, ініцыяваны спецыялістамі сектара камп’ютарнай лінгвістыкі Інстытута мовазнаўства імя Якуба Коласа НАН Беларусі. Арганізацыя працуе над стварэннем Нацыянальнага корпуса беларускай мовы — то-бок над зборам тэкстаў сучаснай беларускай мовы са структурнай і граматычнай разметкай і пашпартызацыяй.
Акрамя таго, на дадзеным інтэрнэт-рэсурсе можна знайсці спасылкі і на іншыя карысныя праекты: моўную даведку Інстытута мовазнаўства НАН, праверку правапісу з плагінамі для браўзераў, лічбавы архіў Інстытута мастацтвазнаўства, этнаграфіі і фальклору і іншае.
І вось нядаўна да гэтага спіса дадалася тэставая версія фанетычнага канвертара і сінтэзу маўлення. З яе дапамогай можна зрабіць фанетычную транскрыпцыю любога беларускага тэксту паводле правіл Міжнароднага фанетычнага алфавіта (IPA).
Каб пачуць маўленне, дастаткова ўвесці патрэбны тэкст у пустое поле і націснуць «Агучыць». Потым гатовы аўдыязапіс можна спампаваць сабе на камп’ютар.
Як гэта было рэалізавана: 5+ гадоў працы і стварэнне граматычнай базы
Цяпер у камандзе праекта — 2-3 чалавекі: супрацоўнікі Інстытута мовазнаўства імя Якуба Коласа ды іншыя зацікаўленыя даследчыкі. На жаль, пабочныя праграмісты, напрыклад, з ПВТ, удзелу ў распрацоўцы не бралі.
Беларускі сінтэзатар быў зроблены па слядах мадэлі для агучвання беларускіх тэкстаў «Беларускі тэкст-у-маўленне» і выкарыстоўвае тыя ж запісы для навучання, што калісьці збіраў праект donar.by (памятаеце, як нас заклікалі «ахвяраваць» свой голас дзеля набору даных?).
Першая спроба каманды зрабіць менавіта сінтэз маўлення была яшчэ 5-6 гадоў таму. Але вынікі атрымаліся не надта добрыя. На шчасце, за гэты час адбыліся значныя змены ў рэалізацыі нейронных сетак. Спецыялісты Інстытута мовазнаўства НАН стварылі фанетычны канвертар і граматычную базу. З’явіўся лепшы корпус беларускага маўлення, а таксама іншыя рэалізацыі сінтэзатараў маўлення, дзе можна было пераняць досвед. Плюс знізіліся цэны на арэнду GPU. Усё гэта дазволіла дасягнуць лепшага выніку.
Што тычыцца фанетычнага канвертара, то ён быў рэалізаваны ў выглядзе Java-бібліятэкі. Яна будзе даступная пад вольнай ліцэнзіяй, калі распрацоўшчыкі будуць гатовыя анансаваць першы рэліз. Паводле іх слоў, там яшчэ ёсць некаторыя рэчы, якія трэба палепшыць, хоць вынік ужо «вельмі добры і перасягае ўсе іншыя рэалізацыі».
На распрацоўку канвертара пайшло некалькі гадоў, плюс стваральнікі перыядычна да яго звяртаюцца. Хоць канвертар і выглядае асобным невялікім праектам, там патрабуецца яшчэ адзін, значна большы і складаны праект — «Граматычная база» (база, што ўтрымлівае каля 265 тыс. слоў і ~4.5 млн. словаформаў; яна дае найбольш поўны і найбольш якасны спіс слоў беларускай мовы. Падрабязней тут — ад аўтара.
Каб канвертар працаваў правільна, ён мусіць улічваць усе асаблівасці беларускага маўлення. Прычым размова ідзе менавіта пра літаратурнае маўленне, бо ў гаворках могуць быць свае асаблівасці, і да таго ж яны не сістэматызаваныя.
Ці можна дадаць гэтую распрацоўку ў той жа Google Translate? На жаль, інтэграваць нешта ў прадукты Google можа толькі сам Google. Але стварэнне ўласнага сінтэзу беларускага маўлення якраз і дазваляе не залежаць ад жадання вялікіх кампаній нешта стварыць, змяніць ці закрыць, а мець свой прадукт, які можна самім паляпшаць і выкарыстоўваць без тэхналагічных абмежаванняў. Так, стваральнікі абяцаюць апублікаваць свае распрацоўкі пад вольнай ліцэнзіяй.
Але наперадзе яшчэ шмат працы. У прыватнасці, канвертар патрабуе слоўніка прыставак, праца над якім рухаецца марудна, і некаторай сістэматызацыі фанетычных правіл. А сінтэз маўлення — запісу корпусу маўлення добрай якасці, і потым — яго падрыхтоўкі для навучання праз нейронныя сеткі.
Калі вы хочаце дапамагчы і далучыцца да праекта, пішыце на пошту bnkorpus@gmail.com.
Падтрымайце нашу беларускую версiю — чытайце нас па-беларуску.
dev.by, як і іншым сумленным медыя, сёння вельмі складана: рэдакцыя працуе па-за межамі краіны, а нашыя рэкламныя даходы скараціліся ў некалькі разоў. Але мы даем рады — з вашай дапамогай. Гэта вы дзеліцеся з намі інфанагодамі, думкамі, досведам, часам і ўвагай. А 210 чытачоў падтрымліваюць нас данатамі.
У 2023 годзе мы хочам сабраць 1000 чытачоў-падпісчыкаў.
Дапамагчы нам можна праз Patreon.
І яшчэ крыптой, тут гаманцы.
Дзякуй, што прачыталі гэтае паведамленне.
Читать на dev.by