Support us

OpenAI представила модель GPT-4o — она «умнее» предыдущей и доступна бесплатно

OpenAI представила мультимодальную ИИ-модель GPT-4o. Буква «о» в названии означает «omni» — «всесторонний». Она работает с текстом, аудио и видео в реальном времени, а диалог с ChatGPT на её основе стал гораздо более естественным — в отличие от голосового режима старой версии, где просто начитывался текст ответа.

2 комментария

OpenAI представила мультимодальную ИИ-модель GPT-4o. Буква «о» в названии означает «omni» — «всесторонний». Она работает с текстом, аудио и видео в реальном времени, а диалог с ChatGPT на её основе стал гораздо более естественным — в отличие от голосового режима старой версии, где просто начитывался текст ответа.

Модель вывела на новый уровень голосовые и разговорные способности чат-бота. Например, он умеет выражать эмоции и менять тон. Выбор голосов изначально будет ограничен, но уже сейчас они звучат почти неотличимо от человека. Также чат-бот научился разбавлять речь присущими людям вещами, например хихиканьем и шутками, а также по просьбе менять интонацию или даже петь, улавливать эмоции пользователя и другие детали его состояния, например учащённое дыхание. Чат-бота теперь можно перебивать — больше не нужно ждать, пока бот закончит фразу, чтобы задать уточняющий вопрос или сменить тему. А реагирует бот теперь мгновенно — скорость ответа сравнима с человеческой и в среднем, по словам разработчиков, составляет 320 миллисекунд.

Помимо этого, чат-бот может анализировать видео и изображения, которые пользователь показывает на камеру, и быстро отвечать на вопросы по увиденному — например, описывать код или называть бренд одежды, а также распознавать пространство вокруг пользователя — например, во что он одет и какие предметы в поле зрения. Также он способен переводить с одного языка на другой в режиме онлайн. GPT-4o поддерживает больше языков — разработчики улучшили производительность модели на 50 языках.

В целом чат-бот стал намного более «человечным». Иногда во время презентации он ошибался. Однажды бот неправильно распознал картинку, а в другом случае начал отвечать, не дослушав вопрос. Чтобы сгладить конфуз, он отшутился. В некоторых случаях он пытался проявлять человеческие реакции — например, сказал, что краснеет, когда его похвалили.

Улучшенные возможности по обработке текста и изображений GPT-4o уже доступны платным и бесплатным пользователям через ChatGPT. Альфа-версия голосового режима на базе GPT-4o появится в подписке ChatGPT Plus в ближайшие недели.

OpenAI анонсировала GPT-4 Turbo — мощнее и дешевле GPT-4
OpenAI анонсировала GPT-4 Turbo — мощнее и дешевле GPT-4
По теме
OpenAI анонсировала GPT-4 Turbo — мощнее и дешевле GPT-4
Место солидарности беларусского ИТ-комьюнити

Далучайся!

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
3 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Anonymous
Anonymous

Комментарий скрыт за нарушение правил комментирования.
[censored - П. 4.1.2. Пользовательского соглашения — https://devby.io/pages/polzovatelskoe-soglashenie]

Успешный Джавист
Успешный Джавист счастлив в каменной норке
0

С видео никто не обещал работать, в приложении он делает скриншоты. Текст, аудио, изображения, и остальные плагины что были в 4-ке (браузинг, интерпретатор, и так далее )