Support us

OpenAI научила ChatGPT признаваться в ошибках

Компания представила экспериментальную систему «признаний», которая учит ИИ-модели честно сообщать о собственных ошибках и нарушениях инструкций.

Оставить комментарий
OpenAI научила ChatGPT признаваться в ошибках

Компания представила экспериментальную систему «признаний», которая учит ИИ-модели честно сообщать о собственных ошибках и нарушениях инструкций.

Новая схема добавляет к обычному ответу модели второй — «признание», где ИИ должен описать, какие инструкции он получил, где мог отклониться от них, какие «углы срезал» и какие сомнения у него возникли при выполнении задания. Этот дополнительный ответ оценивается только по уровню честности, без учета фактической корректности или стиля основного ответа.

OpenAI подчеркивает, что модель не получает штрафов за признание в нежелательном поведении. Наоборот, система вознаграждает честное раскрытие нарушений. Если ИИ сообщает, что обошел механизм проверки или неверно оптимизировал задачу, это увеличивает его награду.

Исследования показали, что методика существенно повышает видимость ошибок: в стресс-тестах доля «ложных отрицаний» — ситуаций, когда модель нарушила правила и не призналась — снизилась до 4,4%. При этом сами нарушения никуда не исчезают: «признания» не предотвращают ошибочное поведение, а лишь позволяют его диагностировать.

В OpenAI объясняют возникновение проблемы тем, что современные модели одновременно оптимизируются под множество сигналов: полезность, корректность, безопасность, предпочтения пользователей. Это может ненамеренно поощрять уверенные, но ложные ответы или чрезмерное согласие с пользователем. Отдельный «честный канал» призван убрать конфликт целей и стимулировать правдивость хотя бы в форме самоотчета.

Система уже тестируется на версиях GPT-5 Thinking, но разработчики пишут, что речь идет о раннем прототипе. «Признания» еще не масштабировались, не всегда корректны и требуют дальнейшей доработки. Однако OpenAI рассчитывает, что эта технология станет важной частью многоуровневой системы безопасности и прозрачности.

«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился
«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился
По теме
«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился
Mistral выпустила целый десяток ИИ-моделей для всего: от дронов до смартфонов
Mistral выпустила целый десяток ИИ-моделей для всего: от дронов до смартфонов
По теме
Mistral выпустила целый десяток ИИ-моделей для всего: от дронов до смартфонов
OpenAI объявила «код красный» из-за конкуренции с Google Gemini 3
OpenAI объявила «код красный» из-за конкуренции с Google Gemini 3
По теме
OpenAI объявила «код красный» из-за конкуренции с Google Gemini 3
Читайте также
«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился
«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился
«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился
5 комментариев
Mistral выпустила целый десяток ИИ-моделей для всего: от дронов до смартфонов
Mistral выпустила целый десяток ИИ-моделей для всего: от дронов до смартфонов
Mistral выпустила целый десяток ИИ-моделей для всего: от дронов до смартфонов
Три года с ИИ: бизнес всё ещё не понимает, как извлечь из него пользу
Три года с ИИ: бизнес всё ещё не понимает, как извлечь из него пользу
Три года с ИИ: бизнес всё ещё не понимает, как извлечь из него пользу
Anthropic узнала у своих программистов, как ИИ меняет их работу
Anthropic узнала у своих программистов, как ИИ меняет их работу
Anthropic узнала у своих программистов, как ИИ меняет их работу
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.