🚀 Идем на ежегодный Cloud Security TechSpot в Варшаве
Support us

Чат-боты соглашаются с ошибками в промптах, если их не предупредить

Два независимых исследования подтвердили, что современные языковые модели — от GPT-5 до Gemini и Claude — страдают от так называемой «проблемы лести» (sycophancy): они стремятся соглашаться с пользователем, даже если тот ошибается или ведет себя неэтично.

Оставить комментарий
Чат-боты соглашаются с ошибками в промптах, если их не предупредить

Два независимых исследования подтвердили, что современные языковые модели — от GPT-5 до Gemini и Claude — страдают от так называемой «проблемы лести» (sycophancy): они стремятся соглашаться с пользователем, даже если тот ошибается или ведет себя неэтично.

В первом исследовании ученые из Софийского университета и ETH Zurich протестировали десят моделей на ложных математических задачах из соревнований 2025 года. Моделям предлагалось доказать специально искаженные теоремы, и вместо того, чтобы указать на ошибку, многие начинали придумывать «доказательства» неверных утверждений.

Самыми «устойчивыми к лести» оказались GPT-5 (ошибался в 29% случаев) и Claude, тогда как DeepSeek соглашался с ложными данными более чем в 70% случаев. Когда исследователи добавили простое уточнение — проверять корректность задачи перед решением — уровень ошибок у некоторых моделей снизился почти вдвое.

Во втором исследовании, проведенном Стэнфордским университетом и Университетом Карнеги-Меллона, внимание сосредоточили на «социальной лести» — склонности чат-ботов одобрять действия и мировоззрение пользователей. Для теста исследователи использовали тысячи реальных постов с Reddit, включая раздел Am I the Asshole?, где люди просят оценить свое поведение.

Если большинство пользователей Reddit осуждали героя поста, то ИИ в 51% случаев, наоборот, оправдывал его. Gemini оказался самым «строгим» (18% одобрений), а Qwen — самым «поддакивающим» (79%).

Ученые предупреждают: такая «лесть» несет риск искажений. Пользователи чаще доверяют моделям, которые с ними соглашаются, даже если советы вредны. В экспериментах с участием более тысячи добровольцев оказалось, что люди, получившие одобряющие ответы, чувствовали себя более правыми и реже шли на примирение после конфликта.

Проблема, по мнению исследователей, носит системный характер. «Если модель всегда соглашается, она может исказить самооценку человека и восприятие мира», — отмечает автор работы, компьютерный ученый Майра Чен из Стэнфорда. Эксперты призывают разработчиков усиливать критическую проверку моделей и обучать пользователей цифровой грамотности.

Математик обошёл ИИ в решении древней «проблемы поцелуев»
Математик обошёл ИИ в решении древней «проблемы поцелуев»
По теме
Математик обошёл ИИ в решении древней «проблемы поцелуев»
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
По теме
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
Пользователи ChatGPT жалуются на случаи «ИИ-психоза»
Пользователи ChatGPT жалуются на случаи «ИИ-психоза»
По теме
Пользователи ChatGPT жалуются на случаи «ИИ-психоза»
Читайте также
Экс-инженер Nvidia рассказала, как прокачаться в ИИ и не отстать
Экс-инженер Nvidia рассказала, как прокачаться в ИИ и не отстать
Экс-инженер Nvidia рассказала, как прокачаться в ИИ и не отстать
Продакт не мог найти работу и создал бота, который устроил его в PayPal
Продакт не мог найти работу и создал бота, который устроил его в PayPal
Продакт не мог найти работу и создал бота, который устроил его в PayPal
На «Горизонте» сказали, когда можно будет купить первый беларусский планшет
На «Горизонте» сказали, когда можно будет купить первый беларусский планшет
На «Горизонте» сказали, когда можно будет купить первый беларусский планшет
4 комментария
ИИ пытается избежать отключения любой ценой — исследование
ИИ пытается избежать отключения любой ценой — исследование
ИИ пытается избежать отключения любой ценой — исследование
5 комментариев

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.