З’явіўся першы сінтэз беларускага маўлення. Чаму гэта важна

На інтэрнэт-рэсурсе «Беларускі N-корпус» з’явіўся першы сінтэз беларускага маўлення — пакуль што тэставая версія, але даступная для ўсіх ахвотных.

4 комментария

Сайт «Беларускі N-корпус» — гэта праект, ініцыяваны спецыялістамі сектара камп’ютарнай лінгвістыкі Інстытута мовазнаўства імя Якуба Коласа НАН Беларусі. Арганізацыя працуе над стварэннем Нацыянальнага корпуса беларускай мовы — то-бок над зборам тэкстаў сучаснай беларускай мовы са структурнай і граматычнай разметкай і пашпартызацыяй.

Акрамя таго, на дадзеным інтэрнэт-рэсурсе можна знайсці спасылкі і на іншыя карысныя праекты: моўную даведку Інстытута мовазнаўства НАН, праверку правапісу з плагінамі для браўзераў, лічбавы архіў Інстытута мастацтвазнаўства, этнаграфіі і фальклору і іншае.

І вось нядаўна да гэтага спіса дадалася тэставая версія фанетычнага канвертара і сінтэзу маўлення. З яе дапамогай можна зрабіць  фанетычную транскрыпцыю любога беларускага тэксту паводле правіл Міжнароднага фанетычнага алфавіта (IPA).

Каб пачуць маўленне, дастаткова ўвесці патрэбны тэкст у пустое поле і націснуць «Агучыць». Потым гатовы аўдыязапіс можна спампаваць сабе на камп’ютар.  

Як гэта было рэалізавана: 5+ гадоў працы і стварэнне граматычнай базы

Цяпер у камандзе праекта — 2-3 чалавекі: супрацоўнікі Інстытута мовазнаўства імя Якуба Коласа ды іншыя зацікаўленыя даследчыкі. На жаль, пабочныя праграмісты, напрыклад, з ПВТ, удзелу ў распрацоўцы не бралі. 

Беларускі сінтэзатар быў зроблены па слядах мадэлі для агучвання беларускіх тэкстаў «Беларускі тэкст-у-маўленне» і выкарыстоўвае тыя ж запісы для навучання, што калісьці збіраў праект donar.by (памятаеце, як нас заклікалі «ахвяраваць» свой голас дзеля набору даных?).

Першая спроба каманды зрабіць менавіта сінтэз маўлення была яшчэ 5-6 гадоў таму. Але вынікі атрымаліся не надта добрыя. На шчасце, за гэты час адбыліся значныя змены ў рэалізацыі нейронных сетак. Спецыялісты Інстытута мовазнаўства НАН стварылі фанетычны канвертар і граматычную базу. З’явіўся лепшы корпус беларускага маўлення, а таксама іншыя рэалізацыі сінтэзатараў маўлення, дзе можна было пераняць досвед. Плюс знізіліся цэны на арэнду GPU. Усё гэта дазволіла дасягнуць лепшага выніку.

Што тычыцца фанетычнага канвертара, то ён быў рэалізаваны ў выглядзе Java-бібліятэкі. Яна будзе даступная пад вольнай ліцэнзіяй, калі распрацоўшчыкі будуць гатовыя анансаваць першы рэліз. Паводле іх слоў, там яшчэ ёсць некаторыя рэчы, якія трэба палепшыць, хоць вынік ужо «вельмі добры і перасягае ўсе іншыя рэалізацыі».

На распрацоўку канвертара пайшло некалькі гадоў, плюс стваральнікі перыядычна да яго звяртаюцца. Хоць канвертар і выглядае асобным невялікім праектам, там патрабуецца яшчэ адзін, значна большы і складаны праект — «Граматычная база» (база, што ўтрымлівае каля 265 тыс. слоў і ~4.5 млн. словаформаў; яна дае найбольш поўны і найбольш якасны спіс слоў беларускай мовы. Падрабязней тут — ад аўтара.  

Каб канвертар працаваў правільна, ён мусіць улічваць усе асаблівасці беларускага маўлення. Прычым размова ідзе менавіта пра літаратурнае маўленне, бо ў гаворках могуць быць свае асаблівасці, і да таго ж яны не сістэматызаваныя. 

Ці можна дадаць гэтую распрацоўку ў той жа Google Translate? На жаль, інтэграваць нешта ў прадукты Google можа толькі сам Google. Але стварэнне ўласнага сінтэзу беларускага маўлення якраз і дазваляе не залежаць ад жадання вялікіх кампаній нешта стварыць, змяніць ці закрыць, а мець свой прадукт, які можна самім паляпшаць і выкарыстоўваць без тэхналагічных абмежаванняў. Так, стваральнікі абяцаюць апублікаваць свае распрацоўкі пад вольнай ліцэнзіяй. 

Але наперадзе яшчэ шмат працы. У прыватнасці, канвертар патрабуе слоўніка прыставак, праца над якім рухаецца марудна, і некаторай сістэматызацыі фанетычных правіл. А сінтэз маўлення — запісу корпусу маўлення добрай якасці, і потым — яго падрыхтоўкі для навучання праз нейронныя сеткі.

Калі вы хочаце дапамагчы і  далучыцца да праекта, пішыце на пошту bnkorpus@gmail.com.


Падтрымайце нашу беларускую версiю — чытайце нас па-беларуску

dev.by, як і іншым сумленным медыя, сёння вельмі складана: рэдакцыя працуе па-за межамі краіны, а нашыя рэкламныя даходы скараціліся ў некалькі разоў. Але мы даем рады — з вашай дапамогай. Гэта вы дзеліцеся з намі інфанагодамі, думкамі, досведам, часам і ўвагай. А 210 чытачоў падтрымліваюць нас данатамі.

У 2023 годзе мы хочам сабраць 1000 чытачоў-падпісчыкаў. 

Дапамагчы нам можна праз Patreon. 

З Беларусі — праз Donorbox.

І яшчэ крыптой, тут гаманцы.

Дзякуй, што прачыталі гэтае паведамленне.

Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
По теме
Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
«Працую дворнікам, верыце ці не». Беларус пераклаў Skyrim на родную мову
По теме
«Працую дворнікам, верыце ці не». Беларус пераклаў Skyrim на родную мову
«Не магу ўявіць мітынг па-беларуску». Айцішнікі пра мову ў працоўных камунікацыях 
По теме
«Не магу ўявіць мітынг па-беларуску». Айцішнікі пра мову ў працоўных камунікацыях 
Як айцішнік перакладае Psiphon, Ubuntu і гульні (вам захочацца перайсцi на беларускiя інтэрфейсы!)
По теме
Як айцішнік перакладае Psiphon, Ubuntu і гульні (вам захочацца перайсцi на беларускiя інтэрфейсы!)

Читать на dev.by