Отдел новостей 5 марта 2025, 13:16

OpenAI признала, что её новая модель галлюцинирует в 37% случаев. Но это хорошо

GPT-4.5 совершает ошибку более чем в трети ответов. Такой результат OpenAI получила по итогам тестирования своей новейшей модели на внутреннем бенчмарке SimpleQA. Но ИИ-стартап преподносит это как благо, поскольку предыдущие его модели галлюцинировали гораздо больше, пишет Futurism.

4 комментария

OpenAI признала, что её новая модель галлюцинирует в 37% случаев. Но это хорошо

GPT-4.5 совершает ошибку более чем в трети ответов. Такой результат OpenAI получила по итогам тестирования своей новейшей модели на внутреннем бенчмарке SimpleQA. Но ИИ-стартап преподносит это как благо, поскольку предыдущие его модели галлюцинировали гораздо больше, пишет Futurism.

Данные разработчики предоставили в релизе. GPT-4.5 ошибается 37% времени, но это гораздо ниже 61,8% у продвинутой рассуждающей модели GPT-4o на том же бенчмарке. Менее крупная бюджетная o3-mini и вовсе сочиняет в 80,3% ответов.

Но эта проблема касается не только OpenAI, которая оценивается в сотни миллионов долларов. В прошлом году исследователи отмечали, что даже лучшие на тот момент модели выдавали ответы без галлюцинаций лишь примерно в 35% случаев.

Это демонстрирует системную проблему отрасли: дорогостоящие, ресурсозатратные модели позиционируются как инструменты, приближающиеся к человеческому интеллекту, но часто ошибаются в базовых фактах. Главный вывод состоит в том, что сегодняшним ИИ-моделям нельзя доверять полностью. При этом производительность моделей OpenAI выходит на плато.

OpenAI получила первый иск за «галлюцинации» у ChatGPT

OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование

Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов

Пользователи усомнились в модели OpenAI за $200. Будут ли платить?

4 комментария

Текст: Отдел новостей Фото: Gertrūda Valasevičiūtė / Unsplash Источник: Futurism Теги: openai, gpt-4.5, искусственный интеллект, модели

Нашли ошибку в тексте-выделите ее и нажмите Ctrl+Enter. Нашли ошибку в тексте-выделите ее и нажмите кнопку «Сообщить об ошибке»."

Сайт компании Вакансии

Размещение рекламы

Доля ChatGPT впервые упала ниже половины, а OpenAI наоборот нарастила — годовой убыток в 8 раз

Нейросети оказались дороже программистов? Техлид объясняет, почему спрос на разработчиков только вырастет

Просто удивительно: последние несколько лет нам все рассказывали, как нас заменит искусственный интеллект. И вот оказывается, что нет. Получается, нам врали? Выяснилось, что нейросеть — это не бесплатный программист, а дорогой инструмент, который далеко не всегда выгоднее человека.