OpenAI представила модель GPT-4o — она «умнее» предыдущей и доступна бесплатно

OpenAI представила мультимодальную ИИ-модель GPT-4o. Буква «о» в названии означает «omni» — «всесторонний». Она работает с текстом, аудио и видео в реальном времени, а диалог с ChatGPT на её основе стал гораздо более естественным — в отличие от голосового режима старой версии, где просто начитывался текст ответа.

2 комментария

Модель вывела на новый уровень голосовые и разговорные способности чат-бота. Например, он умеет выражать эмоции и менять тон. Выбор голосов изначально будет ограничен, но уже сейчас они звучат почти неотличимо от человека. Также чат-бот научился разбавлять речь присущими людям вещами, например хихиканьем и шутками, а также по просьбе менять интонацию или даже петь, улавливать эмоции пользователя и другие детали его состояния, например учащённое дыхание. Чат-бота теперь можно перебивать — больше не нужно ждать, пока бот закончит фразу, чтобы задать уточняющий вопрос или сменить тему. А реагирует бот теперь мгновенно — скорость ответа сравнима с человеческой и в среднем, по словам разработчиков, составляет 320 миллисекунд.

Помимо этого, чат-бот может анализировать видео и изображения, которые пользователь показывает на камеру, и быстро отвечать на вопросы по увиденному — например, описывать код или называть бренд одежды, а также распознавать пространство вокруг пользователя — например, во что он одет и какие предметы в поле зрения. Также он способен переводить с одного языка на другой в режиме онлайн. GPT-4o поддерживает больше языков — разработчики улучшили производительность модели на 50 языках.

В целом чат-бот стал намного более «человечным». Иногда во время презентации он ошибался. Однажды бот неправильно распознал картинку, а в другом случае начал отвечать, не дослушав вопрос. Чтобы сгладить конфуз, он отшутился. В некоторых случаях он пытался проявлять человеческие реакции — например, сказал, что краснеет, когда его похвалили.

Улучшенные возможности по обработке текста и изображений GPT-4o уже доступны платным и бесплатным пользователям через ChatGPT. Альфа-версия голосового режима на базе GPT-4o появится в подписке ChatGPT Plus в ближайшие недели.

OpenAI анонсировала GPT-4 Turbo — мощнее и дешевле GPT-4
По теме
OpenAI анонсировала GPT-4 Turbo — мощнее и дешевле GPT-4

Читать на dev.by