Хотите дальше читать devby? 📝
Support us

З’явіўся першы сінтэз беларускага маўлення. Чаму гэта важна

На інтэрнэт-рэсурсе «Беларускі N-корпус» з’явіўся першы сінтэз беларускага маўлення — пакуль што тэставая версія, але даступная для ўсіх ахвотных.

4 комментария
З’явіўся першы сінтэз беларускага маўлення. Чаму гэта важна

На інтэрнэт-рэсурсе «Беларускі N-корпус» з’явіўся першы сінтэз беларускага маўлення — пакуль што тэставая версія, але даступная для ўсіх ахвотных.

Сайт «Беларускі N-корпус» — гэта праект, ініцыяваны спецыялістамі сектара камп’ютарнай лінгвістыкі Інстытута мовазнаўства імя Якуба Коласа НАН Беларусі. Арганізацыя працуе над стварэннем Нацыянальнага корпуса беларускай мовы — то-бок над зборам тэкстаў сучаснай беларускай мовы са структурнай і граматычнай разметкай і пашпартызацыяй.

Акрамя таго, на дадзеным інтэрнэт-рэсурсе можна знайсці спасылкі і на іншыя карысныя праекты: моўную даведку Інстытута мовазнаўства НАН, праверку правапісу з плагінамі для браўзераў, лічбавы архіў Інстытута мастацтвазнаўства, этнаграфіі і фальклору і іншае.

І вось нядаўна да гэтага спіса дадалася тэставая версія фанетычнага канвертара і сінтэзу маўлення. З яе дапамогай можна зрабіць  фанетычную транскрыпцыю любога беларускага тэксту паводле правіл Міжнароднага фанетычнага алфавіта (IPA).

Каб пачуць маўленне, дастаткова ўвесці патрэбны тэкст у пустое поле і націснуць «Агучыць». Потым гатовы аўдыязапіс можна спампаваць сабе на камп’ютар.  

Як гэта было рэалізавана: 5+ гадоў працы і стварэнне граматычнай базы

Цяпер у камандзе праекта — 2-3 чалавекі: супрацоўнікі Інстытута мовазнаўства імя Якуба Коласа ды іншыя зацікаўленыя даследчыкі. На жаль, пабочныя праграмісты, напрыклад, з ПВТ, удзелу ў распрацоўцы не бралі. 

Беларускі сінтэзатар быў зроблены па слядах мадэлі для агучвання беларускіх тэкстаў «Беларускі тэкст-у-маўленне» і выкарыстоўвае тыя ж запісы для навучання, што калісьці збіраў праект donar.by (памятаеце, як нас заклікалі «ахвяраваць» свой голас дзеля набору даных?).

Першая спроба каманды зрабіць менавіта сінтэз маўлення была яшчэ 5-6 гадоў таму. Але вынікі атрымаліся не надта добрыя. На шчасце, за гэты час адбыліся значныя змены ў рэалізацыі нейронных сетак. Спецыялісты Інстытута мовазнаўства НАН стварылі фанетычны канвертар і граматычную базу. З’явіўся лепшы корпус беларускага маўлення, а таксама іншыя рэалізацыі сінтэзатараў маўлення, дзе можна было пераняць досвед. Плюс знізіліся цэны на арэнду GPU. Усё гэта дазволіла дасягнуць лепшага выніку.

Што тычыцца фанетычнага канвертара, то ён быў рэалізаваны ў выглядзе Java-бібліятэкі. Яна будзе даступная пад вольнай ліцэнзіяй, калі распрацоўшчыкі будуць гатовыя анансаваць першы рэліз. Паводле іх слоў, там яшчэ ёсць некаторыя рэчы, якія трэба палепшыць, хоць вынік ужо «вельмі добры і перасягае ўсе іншыя рэалізацыі».

На распрацоўку канвертара пайшло некалькі гадоў, плюс стваральнікі перыядычна да яго звяртаюцца. Хоць канвертар і выглядае асобным невялікім праектам, там патрабуецца яшчэ адзін, значна большы і складаны праект — «Граматычная база» (база, што ўтрымлівае каля 265 тыс. слоў і ~4.5 млн. словаформаў; яна дае найбольш поўны і найбольш якасны спіс слоў беларускай мовы. Падрабязней тут — ад аўтара.  

Каб канвертар працаваў правільна, ён мусіць улічваць усе асаблівасці беларускага маўлення. Прычым размова ідзе менавіта пра літаратурнае маўленне, бо ў гаворках могуць быць свае асаблівасці, і да таго ж яны не сістэматызаваныя. 

Ці можна дадаць гэтую распрацоўку ў той жа Google Translate? На жаль, інтэграваць нешта ў прадукты Google можа толькі сам Google. Але стварэнне ўласнага сінтэзу беларускага маўлення якраз і дазваляе не залежаць ад жадання вялікіх кампаній нешта стварыць, змяніць ці закрыць, а мець свой прадукт, які можна самім паляпшаць і выкарыстоўваць без тэхналагічных абмежаванняў. Так, стваральнікі абяцаюць апублікаваць свае распрацоўкі пад вольнай ліцэнзіяй. 

Але наперадзе яшчэ шмат працы. У прыватнасці, канвертар патрабуе слоўніка прыставак, праца над якім рухаецца марудна, і некаторай сістэматызацыі фанетычных правіл. А сінтэз маўлення — запісу корпусу маўлення добрай якасці, і потым — яго падрыхтоўкі для навучання праз нейронныя сеткі.

Калі вы хочаце дапамагчы і  далучыцца да праекта, пішыце на пошту [email protected].


Падтрымайце нашу беларускую версiю — чытайце нас па-беларуску

dev.by, як і іншым сумленным медыя, сёння вельмі складана: рэдакцыя працуе па-за межамі краіны, а нашыя рэкламныя даходы скараціліся ў некалькі разоў. Але мы даем рады — з вашай дапамогай. Гэта вы дзеліцеся з намі інфанагодамі, думкамі, досведам, часам і ўвагай. А 210 чытачоў падтрымліваюць нас данатамі.

У 2023 годзе мы хочам сабраць 1000 чытачоў-падпісчыкаў. 

Дапамагчы нам можна праз Patreon. 

З Беларусі — праз Donorbox.

І яшчэ крыптой, тут гаманцы.

Дзякуй, што прачыталі гэтае паведамленне.

Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
По теме
Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
«Працую дворнікам верыце ці не». Беларус пераклаў Skyrim на родную мову
«Працую дворнікам, верыце ці не». Беларус пераклаў Skyrim на родную мову
По теме
«Працую дворнікам, верыце ці не». Беларус пераклаў Skyrim на родную мову
«Не магу ўявіць мітынг па-беларуску». Айцішнікі пра мову ў працоўных камунікацыях 
«Не магу ўявіць мітынг па-беларуску». Айцішнікі пра мову ў працоўных камунікацыях 
По теме
«Не магу ўявіць мітынг па-беларуску». Айцішнікі пра мову ў працоўных камунікацыях 
Як айцішнік перакладае Psiphon Ubuntu і гульні (вам захочацца перайсцi на беларускiя інтэрфейсы!)
Як айцішнік перакладае Psiphon, Ubuntu і гульні (вам захочацца перайсцi на беларускiя інтэрфейсы!)
По теме
Як айцішнік перакладае Psiphon, Ubuntu і гульні (вам захочацца перайсцi на беларускiя інтэрфейсы!)
Помогаете devby = помогаете ИТ-комьюнити.

Засапортить сейчас.

Читайте также
Как разработчик в Польше работал курьером (но потом всё получилось)
Как разработчик в Польше работал курьером (но потом всё получилось)
Как разработчик в Польше работал курьером (но потом всё получилось)
@dzikpic, канал для айтишников в Польше, рассказал историю Александра. Перед тем, как попасть в польскую компанию, он два месяца доставлял еду в Glovo. Каково это — ездить на велосипеде по 10-12 часов в день и почему маникюрщица зарабатывает больше разработчика.
12 комментариев
Айтишник купил дом в Польше. Как получить разрешение в 2023, когда отказов больше
Айтишник купил дом в Польше. Как получить разрешение в 2023, когда отказов больше
Айтишник купил дом в Польше. Как получить разрешение в 2023, когда отказов больше
@dzikpic, канал для ИТ-экспатов в Польше, рассказывает историю белорусского айтишника, который купил дом в Гданьске, с комментариями эксперта. Обсудить историю можно в чате.
12 комментариев
Belka Games уволила сотрудников в Беларуси, России и Литве
Belka Games уволила сотрудников в Беларуси, России и Литве
Belka Games уволила сотрудников в Беларуси, России и Литве
22 комментария
Российская «Леста» стала 100%-м собственником «Гейм Стрим»
Российская «Леста» стала 100%-м собственником «Гейм Стрим»
Российская «Леста» стала 100%-м собственником «Гейм Стрим»

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

bonscott
bonscott
6

Ну выдатна! А якая дапамога патрэбна?

alexxp
alexxp
4

Добра працуе! Вялiкi дзякуй за працу!

fallinmyhand
fallinmyhand Патриот в Мерси Софтваре
2

А можно чтобы и с женским голосом был?

Juraś Palakoŭ
Juraś Palakoŭ
2

Dziakuj za pracu, vielmi zručnaja prylada!