Николай Чикишев world 4 декабря 2025, 14:08

OpenAI научила ChatGPT признаваться в ошибках

Компания представила экспериментальную систему «признаний», которая учит ИИ-модели честно сообщать о собственных ошибках и нарушениях инструкций.

1 комментарий

OpenAI научила ChatGPT признаваться в ошибках

Компания представила экспериментальную систему «признаний», которая учит ИИ-модели честно сообщать о собственных ошибках и нарушениях инструкций.

Новая схема добавляет к обычному ответу модели второй — «признание», где ИИ должен описать, какие инструкции он получил, где мог отклониться от них, какие «углы срезал» и какие сомнения у него возникли при выполнении задания. Этот дополнительный ответ оценивается только по уровню честности, без учета фактической корректности или стиля основного ответа.

OpenAI подчеркивает, что модель не получает штрафов за признание в нежелательном поведении. Наоборот, система вознаграждает честное раскрытие нарушений. Если ИИ сообщает, что обошел механизм проверки или неверно оптимизировал задачу, это увеличивает его награду.

Исследования показали, что методика существенно повышает видимость ошибок: в стресс-тестах доля «ложных отрицаний» — ситуаций, когда модель нарушила правила и не призналась — снизилась до 4,4%. При этом сами нарушения никуда не исчезают: «признания» не предотвращают ошибочное поведение, а лишь позволяют его диагностировать.

В OpenAI объясняют возникновение проблемы тем, что современные модели одновременно оптимизируются под множество сигналов: полезность, корректность, безопасность, предпочтения пользователей. Это может ненамеренно поощрять уверенные, но ложные ответы или чрезмерное согласие с пользователем. Отдельный «честный канал» призван убрать конфликт целей и стимулировать правдивость хотя бы в форме самоотчета.

Система уже тестируется на версиях GPT-5 Thinking, но разработчики пишут, что речь идет о раннем прототипе. «Признания» еще не масштабировались, не всегда корректны и требуют дальнейшей доработки. Однако OpenAI рассчитывает, что эта технология станет важной частью многоуровневой системы безопасности и прозрачности.

«Я глубоко сожалею»: ИИ-агент Google стёр жёсткий диск пользователя и извинился

Mistral выпустила целый десяток ИИ-моделей для всего: от дронов до смартфонов

OpenAI объявила «код красный» из-за конкуренции с Google Gemini 3

1 комментарий

Текст: Николай Чикишев Источник: OpenAI Теги: openai, chatgpt, искусственный интеллект, чат-боты

Нашли ошибку в тексте-выделите ее и нажмите Ctrl+Enter. Нашли ошибку в тексте-выделите ее и нажмите кнопку «Сообщить об ошибке»."

Сайт компании Вакансии

Размещение рекламы

Появилась фриланс-биржа, на которой ИИ-агенты могут нанять людей

У ИИ-агентов новая напасть: «черви-промпты» заражают целые экосистемы

Только 3,3% пользователей Copilot стали платными клиентами Microsoft

WP: сексуализированный контент добавили в Grok для удержания аудитории

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Zhan Chubukou Шчолкаю зубамі в ЗАО "Прыдацелі і атшчыпенцы"

0

Так просто логи анализировать проще. Я б туда ещё вставил спецтокен "<каюсь после того как заметили>" и смотрел КАК ИМЕННО этот вот пользователь негодует и почему. Естественно, что проблему пользователя никто решать не будет (ну или там спрогнозируют кого налево, кого направо). Так что да, Сэм (ну или кто там), ты прав, учи этих вайбкодеров, кто тут главный. Офигеть - "у меня стёрли диск - напишу-ка пост", вместо того, чтобы в суд идти. И потом уже посты писать. Учи, Сэм, этих бородатых детей.

Войдите, чтобы оставить комментарий