Команда Google Cloud анонсировала ряд обновлений API для синтеза и понимания речи, которые помогут разработчикам строить более эффективные интеллектуальные голосовые приложения и охватить более широкую аудиторию, пишет ZDNet.
Google расширила API для синтеза речи Text-to-Speech — он получил новые языки и голоса. Кроме того, разработчики улучшили качество инструмента распознавания речи Speech-to-Text, а также открыла свободный доступ к некоторым его возможностям.
Text-to-Speech теперь поддерживает 7 новых языков: русский, польский, украинский, словацкий, норвежский, датский и португальский. Всего вместе с ними сервис насчитывает 21 язык. Помимо этого, Google добавила 31 голос генерирующей нейросети WaveNet и 24 стандартных голоса — всего их теперь 106.
Также Google открыла для всех функционал Device Profiles, который позволяет оптимизировать сгенерированное аудио для воспроизведения на различных типах устройств, например в наушниках.
Что касается транскрибатора Speech-to-Text, Google более чем на 60 процентов уменьшила количество ошибок в моделях распознавания речи в телефонных и видео-звонках. Бета-версии моделей вышли в прошлом году, а теперь они стали общедоступны. Также для всех открыт инструмент, который помогает API Speech-to-Text распознавать различные звуковые каналы. Это может пригодиться, например, в случае диалогов между несколькими людьми.
Наконец, Google на треть снизила стоимость сервиса Speech-to-Text для участников специальной программы, в рамках которой пользователи позволяют компании использовать свои данные для тренировки моделей.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.