🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Беларусы делают аудиодатасет для беларусского языка. Вы можете поддержать проект

Беларусы запустили проект Sonora — это инициатива по созданию качественного набора аудиоданных на беларусском языке, который ляжет в основу развития технологий синтеза речи (Text-to-Speech). Команда хочет, чтобы в современных технологиях — от приложений и аудиокниг до ИИ-продуктов — звучал естественный беларусский язык.

Оставить комментарий
Беларусы делают аудиодатасет для беларусского языка. Вы можете поддержать проект

Беларусы запустили проект Sonora — это инициатива по созданию качественного набора аудиоданных на беларусском языке, который ляжет в основу развития технологий синтеза речи (Text-to-Speech). Команда хочет, чтобы в современных технологиях — от приложений и аудиокниг до ИИ-продуктов — звучал естественный беларусский язык.

Сегодня беларусский почти не представлен в мире голосовых и ИИ-технологий. Отсутствие качественных данных — главное препятствие для его развития в этом направлении.

Аудиодатасет будет содержать набор студийных записей для тренировки моделей синтеза речи. Именно от него зависит, как будет звучать язык: натуральным и живым — или «как робот».

«Создание такого датасета — базовый и необходимый шаг для появления полноценных беларусских голосовых технологий», — отмечают в Sonora.

В рамках проекта команда планирует реализовать полный цикл создания аудиодатасета: собрать и подготовить текстовый корпус вместе с лингвистами, организовать аренду студии и техническое обеспечение, запись профессиональными дикторами, работу звукорежиссёра, обработку аудио, нарезку и контроль качества, а также подготовку и разметку данных для дальнейшего использования.

Над проектом уже работает междисциплинарная команда специалистов по ИИ, лингвистике, звуку и управлению проектами. Их объединяет стремление сделать беларусский язык частью современной технологической реальности.

Для осуществления проекта команда запустила краудфандинг. Общий бюджет на этапе создания датасета, который по плану займёт 3-5 месяцев, составит €13 тысяч.

В Sonora подчёркивают, что этот этап про создание не готового продукта, а основы, без которой невозможно развитие технологий синтеза речи для беларусского языка. Подробнее о проекте можно узнать здесь.

В Академии наук запустили сайт с беларусскими сказками. Можно почитать и послушать
В Академии наук запустили сайт с беларусскими сказками. Можно почитать и послушать
По теме
В Академии наук запустили сайт с беларусскими сказками. Можно почитать и послушать
Появилось приложение с аудиокнигами беларусских классиков в собственном исполнении
Появилось приложение с аудиокнигами беларусских классиков в собственном исполнении
По теме
Появилось приложение с аудиокнигами беларусских классиков в собственном исполнении
Google запустила ИИ-поиск Search Live по всему миру доступен на беларусском
Google запустила ИИ-поиск Search Live по всему миру, доступен на беларусском
По теме
Google запустила ИИ-поиск Search Live по всему миру, доступен на беларусском
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.