Дапамажыце dev.by 🤍
Падтрымаць

Google обновила сервис распознавания речи для разработчиков

Пакінуць каментарый
Google обновила сервис распознавания речи для разработчиков

Улучшенный API, по словам компании, снизит количество ошибок в словах в среднем на 54 процента, пишет TechCrunch. В некоторых областях улучшение работы будет ещё более существенным.

Читать далее

Иллюстрация: Learn2Create

Важная часть обновления — новая функция в API, которая позволяет разработчикам выбирать между разными моделями машинного обучения в зависимости от конкретной задачи. Пока Google предлагает четыре модели: для коротких запросов и голосовых команд, для распознавания аудиозаписей телефонных звонков и для обработки звука с видеофайлов. Наконец, есть и ещё одна, универсальная модель, которую сервис рекомендует использовать для всех остальных случаев.

Кроме этого, инструменты распознавания речи от Google получили и новую пунктуационную модель для английского языка. По словам компании, её использование приведёт к получению намного более читаемых расшифровок: пользователи увидят ощутимо меньше длинных объединённых предложений, больше запятых, кавычек и вопросительных знаков.

Наконец, разработчики смогут добавлять метаданные в расшифровываемые аудио- и видеофайлы — в будущем в компании планируют принимать решения о новых обновлениях на их основе.

Обработка аудио в сервисе обойдётся в $0,006 за 15 секунд. Видеомодель стоит вдвое дороже, но до 31 мая будет доступна по такой же цене.

Чытайце таксама
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3
YouTube цяпер паказвае Recap: што вы глядзелі ўвесь год — на адной старонцы
YouTube цяпер паказвае Recap: што вы глядзелі ўвесь год — на адной старонцы
YouTube цяпер паказвае Recap: што вы глядзелі ўвесь год — на адной старонцы
3 каментарыя
DeepSeek выпусціла дзве новыя мадэлі, якія апярэджваюць GPT-5 і Gemini 3.0 Pro
DeepSeek выпусціла дзве новыя мадэлі, якія апярэджваюць GPT-5 і Gemini 3.0 Pro
DeepSeek выпусціла дзве новыя мадэлі, якія апярэджваюць GPT-5 і Gemini 3.0 Pro
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ можна ўзламаць, напісаўшы промпт у вершах

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.