OpenAI обновила голосовой ИИ для бизнеса: стоит дешевле, звучит естественнее
Компания представила свою самую продвинутую голосовую модель GPT-Realtime, которая теперь доступна в обновленном Realtime API. Новый инструмент предлагает разработчикам более быстрые и естественные решения для создания голосовых ассистентов.
До этого момента создание таких систем было достаточно сложным: речь пользователя сначала преобразовывалась в текст, затем обрабатывалась языковой моделью и только после этого вновь превращалась в аудио. Подобная цепочка вызывала заметные задержки в ответах. GPT-Realtime меняет подход, обрабатывая аудиопоток напрямую, что позволяет выдавать отклики практически без пауз и делает общение с ИИ более плавным и естественным.
OpenAI утверждает, что новая модель способна лучше справляться со сложными и многошаговыми запросами, менять тональность речи, переключаться между языками даже в середине предложения и распознавать невербальные сигналы вроде смеха. Кроме того, GPT-Realtime может анализировать изображения и описывать их содержание. В обновлении также появились два новых голосовых варианта — Cedar и Marin, а существующие голоса стали звучать более реалистично и выразительно.
Значимой новацией стала поддержка протокола Model Context Protocol (MCP), который стандартизирует подключение ИИ к внешним источникам данных. В OpenAI сравнивают MCP с USB-портом для моделей: бизнесу больше не нужно создавать индивидуальные интеграции для подключения своих баз данных, что упрощает внедрение технологии в сферы электронной коммерции, туризма или клиентского сервиса.
Компания также пересмотрела ценообразование. Если раньше использование Realtime API стоило $40 за миллион входных аудиотокенов и $80 за миллион выходных, то теперь цены снижены на 20% — до $32 и $64 соответственно. По словам OpenAI, это делает продукт более доступным для широкой аудитории разработчиков и компаний.
Читать на dev.by