OpenAI научила ChatGPT признаваться в ошибках
Компания представила экспериментальную систему «признаний», которая учит ИИ-модели честно сообщать о собственных ошибках и нарушениях инструкций.
Новая схема добавляет к обычному ответу модели второй — «признание», где ИИ должен описать, какие инструкции он получил, где мог отклониться от них, какие «углы срезал» и какие сомнения у него возникли при выполнении задания. Этот дополнительный ответ оценивается только по уровню честности, без учета фактической корректности или стиля основного ответа.
OpenAI подчеркивает, что модель не получает штрафов за признание в нежелательном поведении. Наоборот, система вознаграждает честное раскрытие нарушений. Если ИИ сообщает, что обошел механизм проверки или неверно оптимизировал задачу, это увеличивает его награду.
Исследования показали, что методика существенно повышает видимость ошибок: в стресс-тестах доля «ложных отрицаний» — ситуаций, когда модель нарушила правила и не призналась — снизилась до 4,4%. При этом сами нарушения никуда не исчезают: «признания» не предотвращают ошибочное поведение, а лишь позволяют его диагностировать.
В OpenAI объясняют возникновение проблемы тем, что современные модели одновременно оптимизируются под множество сигналов: полезность, корректность, безопасность, предпочтения пользователей. Это может ненамеренно поощрять уверенные, но ложные ответы или чрезмерное согласие с пользователем. Отдельный «честный канал» призван убрать конфликт целей и стимулировать правдивость хотя бы в форме самоотчета.
Система уже тестируется на версиях GPT-5 Thinking, но разработчики пишут, что речь идет о раннем прототипе. «Признания» еще не масштабировались, не всегда корректны и требуют дальнейшей доработки. Однако OpenAI рассчитывает, что эта технология станет важной частью многоуровневой системы безопасности и прозрачности.
Читать на dev.by