Отдел новостей Беларуская мова 18 июля 2023, 10:43

З’явіўся першы сінтэз беларускага маўлення. Чаму гэта важна

На інтэрнэт-рэсурсе «Беларускі N-корпус» з’явіўся першы сінтэз беларускага маўлення — пакуль што тэставая версія, але даступная для ўсіх ахвотных.

4 комментария

З’явіўся першы сінтэз беларускага маўлення. Чаму гэта важна

На інтэрнэт-рэсурсе «Беларускі N-корпус» з’явіўся першы сінтэз беларускага маўлення — пакуль што тэставая версія, але даступная для ўсіх ахвотных.

Сайт «Беларускі N-корпус» — гэта праект, ініцыяваны спецыялістамі сектара камп’ютарнай лінгвістыкі Інстытута мовазнаўства імя Якуба Коласа НАН Беларусі. Арганізацыя працуе над стварэннем Нацыянальнага корпуса беларускай мовы — то-бок над зборам тэкстаў сучаснай беларускай мовы са структурнай і граматычнай разметкай і пашпартызацыяй.

Акрамя таго, на дадзеным інтэрнэт-рэсурсе можна знайсці спасылкі і на іншыя карысныя праекты: моўную даведку Інстытута мовазнаўства НАН, праверку правапісу з плагінамі для браўзераў, лічбавы архіў Інстытута мастацтвазнаўства, этнаграфіі і фальклору і іншае.

І вось нядаўна да гэтага спіса дадалася тэставая версія фанетычнага канвертара і сінтэзу маўлення. З яе дапамогай можна зрабіць фанетычную транскрыпцыю любога беларускага тэксту паводле правіл Міжнароднага фанетычнага алфавіта (IPA).

Каб пачуць маўленне, дастаткова ўвесці патрэбны тэкст у пустое поле і націснуць «Агучыць». Потым гатовы аўдыязапіс можна спампаваць сабе на камп’ютар.

Як гэта было рэалізавана: 5+ гадоў працы і стварэнне граматычнай базы

Цяпер у камандзе праекта — 2-3 чалавекі: супрацоўнікі Інстытута мовазнаўства імя Якуба Коласа ды іншыя зацікаўленыя даследчыкі. На жаль, пабочныя праграмісты, напрыклад, з ПВТ, удзелу ў распрацоўцы не бралі.

Беларускі сінтэзатар быў зроблены па слядах мадэлі для агучвання беларускіх тэкстаў «Беларускі тэкст-у-маўленне» і выкарыстоўвае тыя ж запісы для навучання, што калісьці збіраў праект donar.by (памятаеце, як нас заклікалі «ахвяраваць» свой голас дзеля набору даных?).

Першая спроба каманды зрабіць менавіта сінтэз маўлення была яшчэ 5-6 гадоў таму. Але вынікі атрымаліся не надта добрыя. На шчасце, за гэты час адбыліся значныя змены ў рэалізацыі нейронных сетак. Спецыялісты Інстытута мовазнаўства НАН стварылі фанетычны канвертар і граматычную базу. З’явіўся лепшы корпус беларускага маўлення, а таксама іншыя рэалізацыі сінтэзатараў маўлення, дзе можна было пераняць досвед. Плюс знізіліся цэны на арэнду GPU. Усё гэта дазволіла дасягнуць лепшага выніку.

Што тычыцца фанетычнага канвертара, то ён быў рэалізаваны ў выглядзе Java-бібліятэкі. Яна будзе даступная пад вольнай ліцэнзіяй, калі распрацоўшчыкі будуць гатовыя анансаваць першы рэліз. Паводле іх слоў, там яшчэ ёсць некаторыя рэчы, якія трэба палепшыць, хоць вынік ужо «вельмі добры і перасягае ўсе іншыя рэалізацыі».

На распрацоўку канвертара пайшло некалькі гадоў, плюс стваральнікі перыядычна да яго звяртаюцца. Хоць канвертар і выглядае асобным невялікім праектам, там патрабуецца яшчэ адзін, значна большы і складаны праект — «Граматычная база» (база, што ўтрымлівае каля 265 тыс. слоў і ~4.5 млн. словаформаў; яна дае найбольш поўны і найбольш якасны спіс слоў беларускай мовы. Падрабязней тут — ад аўтара.

Каб канвертар працаваў правільна, ён мусіць улічваць усе асаблівасці беларускага маўлення. Прычым размова ідзе менавіта пра літаратурнае маўленне, бо ў гаворках могуць быць свае асаблівасці, і да таго ж яны не сістэматызаваныя.

Ці можна дадаць гэтую распрацоўку ў той жа Google Translate? На жаль, інтэграваць нешта ў прадукты Google можа толькі сам Google. Але стварэнне ўласнага сінтэзу беларускага маўлення якраз і дазваляе не залежаць ад жадання вялікіх кампаній нешта стварыць, змяніць ці закрыць, а мець свой прадукт, які можна самім паляпшаць і выкарыстоўваць без тэхналагічных абмежаванняў. Так, стваральнікі абяцаюць апублікаваць свае распрацоўкі пад вольнай ліцэнзіяй.

Але наперадзе яшчэ шмат працы. У прыватнасці, канвертар патрабуе слоўніка прыставак, праца над якім рухаецца марудна, і некаторай сістэматызацыі фанетычных правіл. А сінтэз маўлення — запісу корпусу маўлення добрай якасці, і потым — яго падрыхтоўкі для навучання праз нейронныя сеткі.

Калі вы хочаце дапамагчы і далучыцца да праекта, пішыце на пошту [email protected].

Падтрымайце нашу беларускую версiю — чытайце нас па-беларуску.

dev.by, як і іншым сумленным медыя, сёння вельмі складана: рэдакцыя працуе па-за межамі краіны, а нашыя рэкламныя даходы скараціліся ў некалькі разоў. Але мы даем рады — з вашай дапамогай. Гэта вы дзеліцеся з намі інфанагодамі, думкамі, досведам, часам і ўвагай. А 210 чытачоў падтрымліваюць нас данатамі.

У 2023 годзе мы хочам сабраць 1000 чытачоў-падпісчыкаў.

Дапамагчы нам можна праз Patreon.

З Беларусі — праз Donorbox.

І яшчэ крыптой, тут гаманцы.

Дзякуй, што прачыталі гэтае паведамленне.

Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове

«Працую дворнікам верыце ці не». Беларус пераклаў Skyrim на родную мову

«Не магу ўявіць мітынг па-беларуску». Айцішнікі пра мову ў працоўных камунікацыях

Як айцішнік перакладае Psiphon Ubuntu і гульні (вам захочацца перайсцi на беларускiя інтэрфейсы!)

4 комментария

Текст: Отдел новостей Теги: mic, беларусь, беларуская мова, мова

Нашли ошибку в тексте-выделите ее и нажмите Ctrl+Enter. Нашли ошибку в тексте-выделите ее и нажмите кнопку «Сообщить об ошибке»."

Сайт компании Вакансии

Размещение рекламы

«Это другое». Почему ING отказался рефинансировать ипотеку для семьи беларусов

Семья беларусов хотела рефинансировать ипотеку в Польше по выгодной ставке, но все это вылилось в семь недель ожидания, потерю выгодных условий и бюрократический тупик. Историю рассказывает Złoty Dzik.

1 комментарий

Американский регулятор подал в суд на украинского ИТ-гиганта, который связан с фондом с беларусским кофаундером

«Опытный айтишник в ЮАР зарабатывает от $40К». Как БГУИР бустанул карьеру

Экс-студент из Африки Донован Мотингоэ скучает по Беларуси: ему нравилась погода, люди и драники. Правда, в комплекте шло немного ксенофобии и неприятный случай «с полицией».

1 комментарий