Как сформировать полезные привычки и бустануть карьеру? Бесплатный марафон
Support us

OpenAI признала, что её новая модель галлюцинирует в 37% случаев. Но это хорошо

GPT-4.5 совершает ошибку более чем в трети ответов. Такой результат OpenAI получила по итогам тестирования своей новейшей модели на внутреннем бенчмарке SimpleQA. Но ИИ-стартап преподносит это как благо, поскольку предыдущие его модели галлюцинировали гораздо больше, пишет Futurism.

4 комментария
OpenAI признала, что её новая модель галлюцинирует в 37% случаев. Но это хорошо

GPT-4.5 совершает ошибку более чем в трети ответов. Такой результат OpenAI получила по итогам тестирования своей новейшей модели на внутреннем бенчмарке SimpleQA. Но ИИ-стартап преподносит это как благо, поскольку предыдущие его модели галлюцинировали гораздо больше, пишет Futurism.

Данные разработчики предоставили в релизе. GPT-4.5 ошибается 37% времени, но это гораздо ниже 61,8% у продвинутой рассуждающей модели GPT-4o на том же бенчмарке. Менее крупная бюджетная o3-mini и вовсе сочиняет в 80,3% ответов.

Но эта проблема касается не только OpenAI, которая оценивается в сотни миллионов долларов. В прошлом году исследователи отмечали, что даже лучшие на тот момент модели выдавали ответы без галлюцинаций лишь примерно в 35% случаев.

Это демонстрирует системную проблему отрасли: дорогостоящие, ресурсозатратные модели позиционируются как инструменты, приближающиеся к человеческому интеллекту, но часто ошибаются в базовых фактах. Главный вывод состоит в том, что сегодняшним ИИ-моделям нельзя доверять полностью. При этом производительность моделей OpenAI выходит на плато.

OpenAI выпустила новую модель GPT-4.5
OpenAI выпустила новую модель GPT-4.5
По теме
OpenAI выпустила новую модель GPT-4.5
OpenAI получила первый иск за «галлюцинации» у ChatGPT
OpenAI получила первый иск за «галлюцинации» у ChatGPT
По теме
OpenAI получила первый иск за «галлюцинации» у ChatGPT
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
По теме
OpenAI: ИИ-модели не справляются с большинством реальных фриланс-задач на программирование
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
По теме
Новейшую ИИ-модель Anthropic называют лучшей в программировании — и её обучение стоило лишь несколько десятков миллионов
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?
По теме
Пользователи усомнились в модели OpenAI за $200. Будут ли платить?
Большой ресёрч-2024: расскажите, как работали и жили весь год.

Заполнить анонимно

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

1

И где все те, кто орали что AI заменить разработчиков?)))

hottaby422
hottaby422 Консультант в Сам себе буратино
3

Только тех, кто галюционирует чаще, чем в 37% случаев

0

Можно подумать, что люди не "галлюцинируют"! Интересно, какой процент галлюцинаций у каждого из нас? Думаю, что выше, чем у ИИ!

0

фатальный недостаток