Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

OpenAI признала, что её новая модель галлюцинирует в 37% случаев. Но это хорошо

GPT-4.5 совершает ошибку более чем в трети ответов. Такой результат OpenAI получила по итогам тестирования своей новейшей модели на внутреннем бенчмарке SimpleQA. Но ИИ-стартап преподносит это как благо, поскольку предыдущие его модели галлюцинировали гораздо больше, пишет Futurism.

4 комментария
OpenAI признала, что её новая модель галлюцинирует в 37% случаев. Но это хорошо

GPT-4.5 совершает ошибку более чем в трети ответов. Такой результат OpenAI получила по итогам тестирования своей новейшей модели на внутреннем бенчмарке SimpleQA. Но ИИ-стартап преподносит это как благо, поскольку предыдущие его модели галлюцинировали гораздо больше, пишет Futurism.

Данные разработчики предоставили в релизе. GPT-4.5 ошибается 37% времени, но это гораздо ниже 61,8% у продвинутой рассуждающей модели GPT-4o на том же бенчмарке. Менее крупная бюджетная o3-mini и вовсе сочиняет в 80,3% ответов.

Но эта проблема касается не только OpenAI, которая оценивается в сотни миллионов долларов. В прошлом году исследователи отмечали, что даже лучшие на тот момент модели выдавали ответы без галлюцинаций лишь примерно в 35% случаев.

Это демонстрирует системную проблему отрасли: дорогостоящие, ресурсозатратные модели позиционируются как инструменты, приближающиеся к человеческому интеллекту, но часто ошибаются в базовых фактах. Главный вывод состоит в том, что сегодняшним ИИ-моделям нельзя доверять полностью. При этом производительность моделей OpenAI выходит на плато.

OpenAI выпустила новую модель GPT-4.5
OpenAI выпустила новую модель GPT-4.5
По теме
OpenAI выпустила новую модель GPT-4.5
OpenAI получила первый иск за «галлюцинации» у ChatGPT
OpenAI получила первый иск за «галлюцинации» у ChatGPT
По теме
OpenAI получила первый иск за «галлюцинации» у ChatGPT
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
По теме
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
По теме
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?
По теме
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
Autodesk сокращает 1000 человек. Угадайте, куда пойдут сэкономленные деньги
Autodesk сокращает 1000 человек. Угадайте, куда пойдут сэкономленные деньги
Autodesk сокращает 1000 человек. Угадайте, куда пойдут сэкономленные деньги
1 комментарий
HR-директор Cisco: худшее, что могут сделать компании, — навалить на сотрудников побольше работы, потому что ИИ экономит время
HR-директор Cisco: худшее, что могут сделать компании, — навалить на сотрудников побольше работы, потому что ИИ экономит время
HR-директор Cisco: худшее, что могут сделать компании, — навалить на сотрудников побольше работы, потому что ИИ экономит время
«Вы будете работать ещё больше»: эксперт — о мифе четырёхдневки
«Вы будете работать ещё больше»: эксперт — о мифе четырёхдневки
«Вы будете работать ещё больше»: эксперт — о мифе четырёхдневки
«Википедия» создала гайд против ИИ-текстов — ИИ начал использовать его сам
«Википедия» создала гайд против ИИ-текстов — ИИ начал использовать его сам
«Википедия» создала гайд против ИИ-текстов — ИИ начал использовать его сам
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

1

И где все те, кто орали что AI заменить разработчиков?)))

hottaby422
hottaby422 Консультант в Сам себе буратино
3

Только тех, кто галюционирует чаще, чем в 37% случаев

0

Можно подумать, что люди не "галлюцинируют"! Интересно, какой процент галлюцинаций у каждого из нас? Думаю, что выше, чем у ИИ!

Anonymous
Anonymous
0

фатальный недостаток