Беларусы делают аудиодатасет для беларусского языка. Вы можете поддержать проект
Беларусы запустили проект Sonora — это инициатива по созданию качественного набора аудиоданных на беларусском языке, который ляжет в основу развития технологий синтеза речи (Text-to-Speech). Команда хочет, чтобы в современных технологиях — от приложений и аудиокниг до ИИ-продуктов — звучал естественный беларусский язык.
Беларусы запустили проект Sonora — это инициатива по созданию качественного набора аудиоданных на беларусском языке, который ляжет в основу развития технологий синтеза речи (Text-to-Speech). Команда хочет, чтобы в современных технологиях — от приложений и аудиокниг до ИИ-продуктов — звучал естественный беларусский язык.
Сегодня беларусский почти не представлен в мире голосовых и ИИ-технологий. Отсутствие качественных данных — главное препятствие для его развития в этом направлении.
Аудиодатасет будет содержать набор студийных записей для тренировки моделей синтеза речи. Именно от него зависит, как будет звучать язык: натуральным и живым — или «как робот».
«Создание такого датасета — базовый и необходимый шаг для появления полноценных беларусских голосовых технологий», — отмечают в Sonora.
В рамках проекта команда планирует реализовать полный цикл создания аудиодатасета: собрать и подготовить текстовый корпус вместе с лингвистами, организовать аренду студии и техническое обеспечение, запись профессиональными дикторами, работу звукорежиссёра, обработку аудио, нарезку и контроль качества, а также подготовку и разметку данных для дальнейшего использования.
Над проектом уже работает междисциплинарная команда специалистов по ИИ, лингвистике, звуку и управлению проектами. Их объединяет стремление сделать беларусский язык частью современной технологической реальности.
Для осуществления проекта команда запустила краудфандинг. Общий бюджет на этапе создания датасета, который по плану займёт 3-5 месяцев, составит €13 тысяч.
В Sonora подчёркивают, что этот этап про создание не готового продукта, а основы, без которой невозможно развитие технологий синтеза речи для беларусского языка. Подробнее о проекте можно узнать здесь.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.