OpenAI признала, что её новая модель галлюцинирует в 37% случаев. Но это хорошо

GPT-4.5 совершает ошибку более чем в трети ответов. Такой результат OpenAI получила по итогам тестирования своей новейшей модели на внутреннем бенчмарке SimpleQA. Но ИИ-стартап преподносит это как благо, поскольку предыдущие его модели галлюцинировали гораздо больше, пишет Futurism.

4 комментария

Данные разработчики предоставили в релизе. GPT-4.5 ошибается 37% времени, но это гораздо ниже 61,8% у продвинутой рассуждающей модели GPT-4o на том же бенчмарке. Менее крупная бюджетная o3-mini и вовсе сочиняет в 80,3% ответов.

Но эта проблема касается не только OpenAI, которая оценивается в сотни миллионов долларов. В прошлом году исследователи отмечали, что даже лучшие на тот момент модели выдавали ответы без галлюцинаций лишь примерно в 35% случаев.

Это демонстрирует системную проблему отрасли: дорогостоящие, ресурсозатратные модели позиционируются как инструменты, приближающиеся к человеческому интеллекту, но часто ошибаются в базовых фактах. Главный вывод состоит в том, что сегодняшним ИИ-моделям нельзя доверять полностью. При этом производительность моделей OpenAI выходит на плато.

OpenAI выпустила новую модель GPT-4.5
По теме
OpenAI выпустила новую модель GPT-4.5
OpenAI получила первый иск за «галлюцинации» у ChatGPT
По теме
OpenAI получила первый иск за «галлюцинации» у ChatGPT
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
По теме
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
По теме
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?
По теме
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?

Читать на dev.by