Support us

З’явіўся першы сінтэз беларускага маўлення. Чаму гэта важна

На інтэрнэт-рэсурсе «Беларускі N-корпус» з’явіўся першы сінтэз беларускага маўлення — пакуль што тэставая версія, але даступная для ўсіх ахвотных.

4 комментария
З’явіўся першы сінтэз беларускага маўлення. Чаму гэта важна

На інтэрнэт-рэсурсе «Беларускі N-корпус» з’явіўся першы сінтэз беларускага маўлення — пакуль што тэставая версія, але даступная для ўсіх ахвотных.

Сайт «Беларускі N-корпус» — гэта праект, ініцыяваны спецыялістамі сектара камп’ютарнай лінгвістыкі Інстытута мовазнаўства імя Якуба Коласа НАН Беларусі. Арганізацыя працуе над стварэннем Нацыянальнага корпуса беларускай мовы — то-бок над зборам тэкстаў сучаснай беларускай мовы са структурнай і граматычнай разметкай і пашпартызацыяй.

Акрамя таго, на дадзеным інтэрнэт-рэсурсе можна знайсці спасылкі і на іншыя карысныя праекты: моўную даведку Інстытута мовазнаўства НАН, праверку правапісу з плагінамі для браўзераў, лічбавы архіў Інстытута мастацтвазнаўства, этнаграфіі і фальклору і іншае.

І вось нядаўна да гэтага спіса дадалася тэставая версія фанетычнага канвертара і сінтэзу маўлення. З яе дапамогай можна зрабіць  фанетычную транскрыпцыю любога беларускага тэксту паводле правіл Міжнароднага фанетычнага алфавіта (IPA).

Каб пачуць маўленне, дастаткова ўвесці патрэбны тэкст у пустое поле і націснуць «Агучыць». Потым гатовы аўдыязапіс можна спампаваць сабе на камп’ютар.  

Як гэта было рэалізавана: 5+ гадоў працы і стварэнне граматычнай базы

Цяпер у камандзе праекта — 2-3 чалавекі: супрацоўнікі Інстытута мовазнаўства імя Якуба Коласа ды іншыя зацікаўленыя даследчыкі. На жаль, пабочныя праграмісты, напрыклад, з ПВТ, удзелу ў распрацоўцы не бралі. 

Беларускі сінтэзатар быў зроблены па слядах мадэлі для агучвання беларускіх тэкстаў «Беларускі тэкст-у-маўленне» і выкарыстоўвае тыя ж запісы для навучання, што калісьці збіраў праект donar.by (памятаеце, як нас заклікалі «ахвяраваць» свой голас дзеля набору даных?).

Першая спроба каманды зрабіць менавіта сінтэз маўлення была яшчэ 5-6 гадоў таму. Але вынікі атрымаліся не надта добрыя. На шчасце, за гэты час адбыліся значныя змены ў рэалізацыі нейронных сетак. Спецыялісты Інстытута мовазнаўства НАН стварылі фанетычны канвертар і граматычную базу. З’явіўся лепшы корпус беларускага маўлення, а таксама іншыя рэалізацыі сінтэзатараў маўлення, дзе можна было пераняць досвед. Плюс знізіліся цэны на арэнду GPU. Усё гэта дазволіла дасягнуць лепшага выніку.

Што тычыцца фанетычнага канвертара, то ён быў рэалізаваны ў выглядзе Java-бібліятэкі. Яна будзе даступная пад вольнай ліцэнзіяй, калі распрацоўшчыкі будуць гатовыя анансаваць першы рэліз. Паводле іх слоў, там яшчэ ёсць некаторыя рэчы, якія трэба палепшыць, хоць вынік ужо «вельмі добры і перасягае ўсе іншыя рэалізацыі».

На распрацоўку канвертара пайшло некалькі гадоў, плюс стваральнікі перыядычна да яго звяртаюцца. Хоць канвертар і выглядае асобным невялікім праектам, там патрабуецца яшчэ адзін, значна большы і складаны праект — «Граматычная база» (база, што ўтрымлівае каля 265 тыс. слоў і ~4.5 млн. словаформаў; яна дае найбольш поўны і найбольш якасны спіс слоў беларускай мовы. Падрабязней тут — ад аўтара.  

Каб канвертар працаваў правільна, ён мусіць улічваць усе асаблівасці беларускага маўлення. Прычым размова ідзе менавіта пра літаратурнае маўленне, бо ў гаворках могуць быць свае асаблівасці, і да таго ж яны не сістэматызаваныя. 

Ці можна дадаць гэтую распрацоўку ў той жа Google Translate? На жаль, інтэграваць нешта ў прадукты Google можа толькі сам Google. Але стварэнне ўласнага сінтэзу беларускага маўлення якраз і дазваляе не залежаць ад жадання вялікіх кампаній нешта стварыць, змяніць ці закрыць, а мець свой прадукт, які можна самім паляпшаць і выкарыстоўваць без тэхналагічных абмежаванняў. Так, стваральнікі абяцаюць апублікаваць свае распрацоўкі пад вольнай ліцэнзіяй. 

Але наперадзе яшчэ шмат працы. У прыватнасці, канвертар патрабуе слоўніка прыставак, праца над якім рухаецца марудна, і некаторай сістэматызацыі фанетычных правіл. А сінтэз маўлення — запісу корпусу маўлення добрай якасці, і потым — яго падрыхтоўкі для навучання праз нейронныя сеткі.

Калі вы хочаце дапамагчы і  далучыцца да праекта, пішыце на пошту [email protected].


Падтрымайце нашу беларускую версiю — чытайце нас па-беларуску

dev.by, як і іншым сумленным медыя, сёння вельмі складана: рэдакцыя працуе па-за межамі краіны, а нашыя рэкламныя даходы скараціліся ў некалькі разоў. Але мы даем рады — з вашай дапамогай. Гэта вы дзеліцеся з намі інфанагодамі, думкамі, досведам, часам і ўвагай. А 210 чытачоў падтрымліваюць нас данатамі.

У 2023 годзе мы хочам сабраць 1000 чытачоў-падпісчыкаў. 

Дапамагчы нам можна праз Patreon. 

З Беларусі — праз Donorbox.

І яшчэ крыптой, тут гаманцы.

Дзякуй, што прачыталі гэтае паведамленне.

Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
По теме
Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
«Працую дворнікам верыце ці не». Беларус пераклаў Skyrim на родную мову
«Працую дворнікам, верыце ці не». Беларус пераклаў Skyrim на родную мову
По теме
«Працую дворнікам, верыце ці не». Беларус пераклаў Skyrim на родную мову
«Не магу ўявіць мітынг па-беларуску». Айцішнікі пра мову ў працоўных камунікацыях 
«Не магу ўявіць мітынг па-беларуску». Айцішнікі пра мову ў працоўных камунікацыях 
По теме
«Не магу ўявіць мітынг па-беларуску». Айцішнікі пра мову ў працоўных камунікацыях 
Як айцішнік перакладае Psiphon Ubuntu і гульні (вам захочацца перайсцi на беларускiя інтэрфейсы!)
Як айцішнік перакладае Psiphon, Ubuntu і гульні (вам захочацца перайсцi на беларускiя інтэрфейсы!)
По теме
Як айцішнік перакладае Psiphon, Ubuntu і гульні (вам захочацца перайсцi на беларускiя інтэрфейсы!)
Читайте также
«Мы уже разные». Как это — быть беларусом, даже когда давно живёшь не в Беларуси? Читатели делятся опытом
«Мы уже разные». Как это — быть беларусом, даже когда давно живёшь не в Беларуси? Читатели делятся опытом
«Мы уже разные». Как это — быть беларусом, даже когда давно живёшь не в Беларуси? Читатели делятся опытом
Татьяна спустя 11 лет в Польше отлично владеет языком и не стесняется акцента. Ян из Словении когда-то делал для коллег «русские вечера» с пельменями, макаронами по-флотски и водкой. А Сергей любит готовить драники в Лондоне и угощает ими друзей, чтобы объяснить, откуда он. Мы собрали три личные истории беларусов, которые уехали из страны в разное время и по разным причинам. Они живут в разных странах, говорят на разных языках и по-разному выстраивают свою жизнь. Но все по-своему продолжают держать связь с родиной.
«Выжил». Что хорошего и плохого случилось с айтишниками в 2025
«Выжил». Что хорошего и плохого случилось с айтишниками в 2025
«Выжил». Что хорошего и плохого случилось с айтишниками в 2025
Прежде чем все уйдут строгать оливье, мы дёрнули читателей ещё раз и попросили порефлексировать над уходящим годом в нашей анкете.
5 комментариев
«Люди уезжают за лучшей жизнью — это нормально». 80-летняя бабушка о том, почему внуки далеко в Рождество (и это со страной не впервые)
«Люди уезжают за лучшей жизнью — это нормально». 80-летняя бабушка о том, почему внуки далеко в Рождество (и это со страной не впервые)
«Люди уезжают за лучшей жизнью — это нормально». 80-летняя бабушка о том, почему внуки далеко в Рождество (и это со страной не впервые)
Стефания Яновна* рассказала проекту «На сувязi» про «исходы», которые видела на своём веку. Её внуки живут во Франции и США.
5 комментариев
«Руководство помешалось на AI». Что бесило и радовало на работе в 2025 (она была — уже хорошо!)
«Руководство помешалось на AI». Что бесило и радовало на работе в 2025 (она была — уже хорошо!)
«Руководство помешалось на AI». Что бесило и радовало на работе в 2025 (она была — уже хорошо!)
Мы спросили айтишников, довольны ли они своим местом работы по итогам 2025. И вообще профессией. Ответили 148 человек.
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

6

Ну выдатна! А якая дапамога патрэбна?

4

Добра працуе! Вялiкi дзякуй за працу!

fallinmyhand
fallinmyhand Патриот в Мерси Софтваре
2

А можно чтобы и с женским голосом был?

2

Dziakuj za pracu, vielmi zručnaja prylada!