Support us

OpenAI признала, что её новая модель галлюцинирует в 37% случаев. Но это хорошо

GPT-4.5 совершает ошибку более чем в трети ответов. Такой результат OpenAI получила по итогам тестирования своей новейшей модели на внутреннем бенчмарке SimpleQA. Но ИИ-стартап преподносит это как благо, поскольку предыдущие его модели галлюцинировали гораздо больше, пишет Futurism.

4 комментария
OpenAI признала, что её новая модель галлюцинирует в 37% случаев. Но это хорошо

GPT-4.5 совершает ошибку более чем в трети ответов. Такой результат OpenAI получила по итогам тестирования своей новейшей модели на внутреннем бенчмарке SimpleQA. Но ИИ-стартап преподносит это как благо, поскольку предыдущие его модели галлюцинировали гораздо больше, пишет Futurism.

Данные разработчики предоставили в релизе. GPT-4.5 ошибается 37% времени, но это гораздо ниже 61,8% у продвинутой рассуждающей модели GPT-4o на том же бенчмарке. Менее крупная бюджетная o3-mini и вовсе сочиняет в 80,3% ответов.

Но эта проблема касается не только OpenAI, которая оценивается в сотни миллионов долларов. В прошлом году исследователи отмечали, что даже лучшие на тот момент модели выдавали ответы без галлюцинаций лишь примерно в 35% случаев.

Это демонстрирует системную проблему отрасли: дорогостоящие, ресурсозатратные модели позиционируются как инструменты, приближающиеся к человеческому интеллекту, но часто ошибаются в базовых фактах. Главный вывод состоит в том, что сегодняшним ИИ-моделям нельзя доверять полностью. При этом производительность моделей OpenAI выходит на плато.

OpenAI выпустила новую модель GPT-4.5
OpenAI выпустила новую модель GPT-4.5
По теме
OpenAI выпустила новую модель GPT-4.5
OpenAI получила первый иск за «галлюцинации» у ChatGPT
OpenAI получила первый иск за «галлюцинации» у ChatGPT
По теме
OpenAI получила первый иск за «галлюцинации» у ChatGPT
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
По теме
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
По теме
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?
По теме
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?
Читайте также
Доля ChatGPT впервые упала ниже половины, а OpenAI наоборот нарастила — годовой убыток в 8 раз
Доля ChatGPT впервые упала ниже половины, а OpenAI наоборот нарастила — годовой убыток в 8 раз
Доля ChatGPT впервые упала ниже половины, а OpenAI наоборот нарастила — годовой убыток в 8 раз
Нейросети оказались дороже программистов? Техлид объясняет, почему спрос на разработчиков только вырастет
Нейросети оказались дороже программистов? Техлид объясняет, почему спрос на разработчиков только вырастет
Нейросети оказались дороже программистов? Техлид объясняет, почему спрос на разработчиков только вырастет
Просто удивительно: последние несколько лет нам все рассказывали, как нас заменит искусственный интеллект. И вот оказывается, что нет. Получается, нам врали? Выяснилось, что нейросеть — это не бесплатный программист, а дорогой инструмент, который далеко не всегда выгоднее человека.
Разраб за несколько дней создал игру в стиле World of Warcraft с помощью Claude Fable 5
Разраб за несколько дней создал игру в стиле World of Warcraft с помощью Claude Fable 5
Разраб за несколько дней создал игру в стиле World of Warcraft с помощью Claude Fable 5
Китайские вузы закрыли 12 000 «устаревших» программ и делают ставку на ИИ
Китайские вузы закрыли 12 000 «устаревших» программ и делают ставку на ИИ
Китайские вузы закрыли 12 000 «устаревших» программ и делают ставку на ИИ

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

1

И где все те, кто орали что AI заменить разработчиков?)))

hottaby422
hottaby422 Консультант в Сам себе буратино
3

Только тех, кто галюционирует чаще, чем в 37% случаев

0

Можно подумать, что люди не "галлюцинируют"! Интересно, какой процент галлюцинаций у каждого из нас? Думаю, что выше, чем у ИИ!

Anonymous
Anonymous
0

фатальный недостаток