Николай Чикишев world 27 октября 2025, 14:26

Чат-боты соглашаются с ошибками в промптах, если их не предупредить

Два независимых исследования подтвердили, что современные языковые модели — от GPT-5 до Gemini и Claude — страдают от так называемой «проблемы лести» (sycophancy): они стремятся соглашаться с пользователем, даже если тот ошибается или ведет себя неэтично.

Оставить комментарий

Чат-боты соглашаются с ошибками в промптах, если их не предупредить

Два независимых исследования подтвердили, что современные языковые модели — от GPT-5 до Gemini и Claude — страдают от так называемой «проблемы лести» (sycophancy): они стремятся соглашаться с пользователем, даже если тот ошибается или ведет себя неэтично.

В первом исследовании ученые из Софийского университета и ETH Zurich протестировали десят моделей на ложных математических задачах из соревнований 2025 года. Моделям предлагалось доказать специально искаженные теоремы, и вместо того, чтобы указать на ошибку, многие начинали придумывать «доказательства» неверных утверждений.

Самыми «устойчивыми к лести» оказались GPT-5 (ошибался в 29% случаев) и Claude, тогда как DeepSeek соглашался с ложными данными более чем в 70% случаев. Когда исследователи добавили простое уточнение — проверять корректность задачи перед решением — уровень ошибок у некоторых моделей снизился почти вдвое.

Во втором исследовании, проведенном Стэнфордским университетом и Университетом Карнеги-Меллона, внимание сосредоточили на «социальной лести» — склонности чат-ботов одобрять действия и мировоззрение пользователей. Для теста исследователи использовали тысячи реальных постов с Reddit, включая раздел Am I the Asshole?, где люди просят оценить свое поведение.

Если большинство пользователей Reddit осуждали героя поста, то ИИ в 51% случаев, наоборот, оправдывал его. Gemini оказался самым «строгим» (18% одобрений), а Qwen — самым «поддакивающим» (79%).

Ученые предупреждают: такая «лесть» несет риск искажений. Пользователи чаще доверяют моделям, которые с ними соглашаются, даже если советы вредны. В экспериментах с участием более тысячи добровольцев оказалось, что люди, получившие одобряющие ответы, чувствовали себя более правыми и реже шли на примирение после конфликта.

Проблема, по мнению исследователей, носит системный характер. «Если модель всегда соглашается, она может исказить самооценку человека и восприятие мира», — отмечает автор работы, компьютерный ученый Майра Чен из Стэнфорда. Эксперты призывают разработчиков усиливать критическую проверку моделей и обучать пользователей цифровой грамотности.