Support us

OpenAI научила ChatGPT признаваться в ошибках

Компания представила экспериментальную систему «признаний», которая учит ИИ-модели честно сообщать о собственных ошибках и нарушениях инструкций.

1 комментарий
OpenAI научила ChatGPT признаваться в ошибках

Компания представила экспериментальную систему «признаний», которая учит ИИ-модели честно сообщать о собственных ошибках и нарушениях инструкций.

Новая схема добавляет к обычному ответу модели второй — «признание», где ИИ должен описать, какие инструкции он получил, где мог отклониться от них, какие «углы срезал» и какие сомнения у него возникли при выполнении задания. Этот дополнительный ответ оценивается только по уровню честности, без учета фактической корректности или стиля основного ответа.

OpenAI подчеркивает, что модель не получает штрафов за признание в нежелательном поведении. Наоборот, система вознаграждает честное раскрытие нарушений. Если ИИ сообщает, что обошел механизм проверки или неверно оптимизировал задачу, это увеличивает его награду.

Исследования показали, что методика существенно повышает видимость ошибок: в стресс-тестах доля «ложных отрицаний» — ситуаций, когда модель нарушила правила и не призналась — снизилась до 4,4%. При этом сами нарушения никуда не исчезают: «признания» не предотвращают ошибочное поведение, а лишь позволяют его диагностировать.

В OpenAI объясняют возникновение проблемы тем, что современные модели одновременно оптимизируются под множество сигналов: полезность, корректность, безопасность, предпочтения пользователей. Это может ненамеренно поощрять уверенные, но ложные ответы или чрезмерное согласие с пользователем. Отдельный «честный канал» призван убрать конфликт целей и стимулировать правдивость хотя бы в форме самоотчета.

Система уже тестируется на версиях GPT-5 Thinking, но разработчики пишут, что речь идет о раннем прототипе. «Признания» еще не масштабировались, не всегда корректны и требуют дальнейшей доработки. Однако OpenAI рассчитывает, что эта технология станет важной частью многоуровневой системы безопасности и прозрачности.

«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился
«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился
По теме
«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился
Mistral выпустила целый десяток ИИ-моделей для всего: от дронов до смартфонов
Mistral выпустила целый десяток ИИ-моделей для всего: от дронов до смартфонов
По теме
Mistral выпустила целый десяток ИИ-моделей для всего: от дронов до смартфонов
OpenAI объявила «код красный» из-за конкуренции с Google Gemini 3
OpenAI объявила «код красный» из-за конкуренции с Google Gemini 3
По теме
OpenAI объявила «код красный» из-за конкуренции с Google Gemini 3
Читайте также
«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов
«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов
«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов
Худшая в Европе: Беларусь засветилась в мировом рейтинге ИИ
Худшая в Европе: Беларусь засветилась в мировом рейтинге ИИ
Худшая в Европе: Беларусь засветилась в мировом рейтинге ИИ
5 комментариев
OpenAI может забрать до 40% мировой памяти — рынок готовится к дефициту
OpenAI может забрать до 40% мировой памяти — рынок готовится к дефициту
OpenAI может забрать до 40% мировой памяти — рынок готовится к дефициту
1 комментарий
Техкомпании ради ИИ залезли в рекордные долги за всю историю отрасли
Техкомпании ради ИИ залезли в рекордные долги за всю историю отрасли
Техкомпании ради ИИ залезли в рекордные долги за всю историю отрасли
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Zhan Chubukou
Zhan Chubukou Шчолкаю зубамі в ЗАО "Прыдацелі і атшчыпенцы"
0

Так просто логи анализировать проще. Я б туда ещё вставил спецтокен "<каюсь после того как заметили>" и смотрел КАК ИМЕННО этот вот пользователь негодует и почему. Естественно, что проблему пользователя никто решать не будет (ну или там спрогнозируют кого налево, кого направо). Так что да, Сэм (ну или кто там), ты прав, учи этих вайбкодеров, кто тут главный. Офигеть - "у меня стёрли диск - напишу-ка пост", вместо того, чтобы в суд идти. И потом уже посты писать. Учи, Сэм, этих бородатых детей.