OpenAI обновила голосовой ИИ для бизнеса: стоит дешевле, звучит естественнее

Компания представила свою самую продвинутую голосовую модель GPT-Realtime, которая теперь доступна в обновленном Realtime API. Новый инструмент предлагает разработчикам более быстрые и естественные решения для создания голосовых ассистентов.

Оставить комментарий

До этого момента создание таких систем было достаточно сложным: речь пользователя сначала преобразовывалась в текст, затем обрабатывалась языковой моделью и только после этого вновь превращалась в аудио. Подобная цепочка вызывала заметные задержки в ответах. GPT-Realtime меняет подход, обрабатывая аудиопоток напрямую, что позволяет выдавать отклики практически без пауз и делает общение с ИИ более плавным и естественным.

OpenAI утверждает, что новая модель способна лучше справляться со сложными и многошаговыми запросами, менять тональность речи, переключаться между языками даже в середине предложения и распознавать невербальные сигналы вроде смеха. Кроме того, GPT-Realtime может анализировать изображения и описывать их содержание. В обновлении также появились два новых голосовых варианта — Cedar и Marin, а существующие голоса стали звучать более реалистично и выразительно.

Значимой новацией стала поддержка протокола Model Context Protocol (MCP), который стандартизирует подключение ИИ к внешним источникам данных. В OpenAI сравнивают MCP с USB-портом для моделей: бизнесу больше не нужно создавать индивидуальные интеграции для подключения своих баз данных, что упрощает внедрение технологии в сферы электронной коммерции, туризма или клиентского сервиса.

Компания также пересмотрела ценообразование. Если раньше использование Realtime API стоило $40 за миллион входных аудиотокенов и $80 за миллион выходных, то теперь цены снижены на 20% — до $32 и $64 соответственно. По словам OpenAI, это делает продукт более доступным для широкой аудитории разработчиков и компаний.

Anthropic начнёт обучать ИИ на ваших чатах по умолчанию
По теме
Anthropic начнёт обучать ИИ на ваших чатах по умолчанию
Новая ИИ-модель Microsoft создаёт 90-минутные подкасты из текста
По теме
Новая ИИ-модель Microsoft создаёт 90-минутные подкасты из текста
Обнаружен первый ИИ-вирус на базе модели OpenAI
По теме
Обнаружен первый ИИ-вирус на базе модели OpenAI

Читать на dev.by