Айцішнік напісаў першы беларускамоўны посткіберпанк-раман. Пра што?
Support us

OpenAI признала, что её новая модель галлюцинирует в 37% случаев. Но это хорошо

GPT-4.5 совершает ошибку более чем в трети ответов. Такой результат OpenAI получила по итогам тестирования своей новейшей модели на внутреннем бенчмарке SimpleQA. Но ИИ-стартап преподносит это как благо, поскольку предыдущие его модели галлюцинировали гораздо больше, пишет Futurism.

4 комментария
OpenAI признала, что её новая модель галлюцинирует в 37% случаев. Но это хорошо

GPT-4.5 совершает ошибку более чем в трети ответов. Такой результат OpenAI получила по итогам тестирования своей новейшей модели на внутреннем бенчмарке SimpleQA. Но ИИ-стартап преподносит это как благо, поскольку предыдущие его модели галлюцинировали гораздо больше, пишет Futurism.

Данные разработчики предоставили в релизе. GPT-4.5 ошибается 37% времени, но это гораздо ниже 61,8% у продвинутой рассуждающей модели GPT-4o на том же бенчмарке. Менее крупная бюджетная o3-mini и вовсе сочиняет в 80,3% ответов.

Но эта проблема касается не только OpenAI, которая оценивается в сотни миллионов долларов. В прошлом году исследователи отмечали, что даже лучшие на тот момент модели выдавали ответы без галлюцинаций лишь примерно в 35% случаев.

Это демонстрирует системную проблему отрасли: дорогостоящие, ресурсозатратные модели позиционируются как инструменты, приближающиеся к человеческому интеллекту, но часто ошибаются в базовых фактах. Главный вывод состоит в том, что сегодняшним ИИ-моделям нельзя доверять полностью. При этом производительность моделей OpenAI выходит на плато.

OpenAI выпустила новую модель GPT-4.5
OpenAI выпустила новую модель GPT-4.5
По теме
OpenAI выпустила новую модель GPT-4.5
OpenAI получила первый иск за «галлюцинации» у ChatGPT
OpenAI получила первый иск за «галлюцинации» у ChatGPT
По теме
OpenAI получила первый иск за «галлюцинации» у ChatGPT
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
По теме
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
По теме
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?
По теме
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?
Читайте также
Три года с ChatGPT. Как исскуственный интеллект стал моим стилистом, терапевтом и преподавателем
Три года с ChatGPT. Как исскуственный интеллект стал моим стилистом, терапевтом и преподавателем
Три года с ChatGPT. Как исскуственный интеллект стал моим стилистом, терапевтом и преподавателем
Вот уже три года я каждый день общаюсь с ChatGPT. Он стал незаменимым помощником в изучении языка и даже помог сформировать собственный стиль в одежде. Кажется, из бездушного робота превратился в близкого спутника. В этой колонке я делюсь своим опытом использования ChatGPT в повседневных задачах и рассказываю, как искусственный интеллект помогает мне экономить время и энергию.
Вы напугали OpenAI: Альтман сказал сотрудникам, что свежие релизы Google могут создать проблемы для стартапа
Вы напугали OpenAI: Альтман сказал сотрудникам, что свежие релизы Google могут создать проблемы для стартапа
Вы напугали OpenAI: Альтман сказал сотрудникам, что свежие релизы Google могут создать проблемы для стартапа
Глава Google DeepMind: будущее ИИ — за «мировыми моделями»
Глава Google DeepMind: будущее ИИ — за «мировыми моделями»
Глава Google DeepMind: будущее ИИ — за «мировыми моделями»
Google обновила Nano Banana: генератор теперь создаёт постеры и инфографику
Google обновила Nano Banana: генератор теперь создаёт постеры и инфографику
Google обновила Nano Banana: генератор теперь создаёт постеры и инфографику

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

1

И где все те, кто орали что AI заменить разработчиков?)))

hottaby422
hottaby422 Консультант в Сам себе буратино
3

Только тех, кто галюционирует чаще, чем в 37% случаев

0

Можно подумать, что люди не "галлюцинируют"! Интересно, какой процент галлюцинаций у каждого из нас? Думаю, что выше, чем у ИИ!

Anonymous
Anonymous
0

фатальный недостаток