17% скидка на размещение рекламы на площадках devby — до 20 ноября. Клац!
Support us

Чат-боты соглашаются с ошибками в промптах, если их не предупредить

Два независимых исследования подтвердили, что современные языковые модели — от GPT-5 до Gemini и Claude — страдают от так называемой «проблемы лести» (sycophancy): они стремятся соглашаться с пользователем, даже если тот ошибается или ведет себя неэтично.

Оставить комментарий
Чат-боты соглашаются с ошибками в промптах, если их не предупредить

Два независимых исследования подтвердили, что современные языковые модели — от GPT-5 до Gemini и Claude — страдают от так называемой «проблемы лести» (sycophancy): они стремятся соглашаться с пользователем, даже если тот ошибается или ведет себя неэтично.

В первом исследовании ученые из Софийского университета и ETH Zurich протестировали десят моделей на ложных математических задачах из соревнований 2025 года. Моделям предлагалось доказать специально искаженные теоремы, и вместо того, чтобы указать на ошибку, многие начинали придумывать «доказательства» неверных утверждений.

Самыми «устойчивыми к лести» оказались GPT-5 (ошибался в 29% случаев) и Claude, тогда как DeepSeek соглашался с ложными данными более чем в 70% случаев. Когда исследователи добавили простое уточнение — проверять корректность задачи перед решением — уровень ошибок у некоторых моделей снизился почти вдвое.

Во втором исследовании, проведенном Стэнфордским университетом и Университетом Карнеги-Меллона, внимание сосредоточили на «социальной лести» — склонности чат-ботов одобрять действия и мировоззрение пользователей. Для теста исследователи использовали тысячи реальных постов с Reddit, включая раздел Am I the Asshole?, где люди просят оценить свое поведение.

Если большинство пользователей Reddit осуждали героя поста, то ИИ в 51% случаев, наоборот, оправдывал его. Gemini оказался самым «строгим» (18% одобрений), а Qwen — самым «поддакивающим» (79%).

Ученые предупреждают: такая «лесть» несет риск искажений. Пользователи чаще доверяют моделям, которые с ними соглашаются, даже если советы вредны. В экспериментах с участием более тысячи добровольцев оказалось, что люди, получившие одобряющие ответы, чувствовали себя более правыми и реже шли на примирение после конфликта.

Проблема, по мнению исследователей, носит системный характер. «Если модель всегда соглашается, она может исказить самооценку человека и восприятие мира», — отмечает автор работы, компьютерный ученый Майра Чен из Стэнфорда. Эксперты призывают разработчиков усиливать критическую проверку моделей и обучать пользователей цифровой грамотности.

Математик обошёл ИИ в решении древней «проблемы поцелуев»
Математик обошёл ИИ в решении древней «проблемы поцелуев»
По теме
Математик обошёл ИИ в решении древней «проблемы поцелуев»
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
По теме
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
Пользователи ChatGPT жалуются на случаи «ИИ-психоза»
Пользователи ChatGPT жалуются на случаи «ИИ-психоза»
По теме
Пользователи ChatGPT жалуются на случаи «ИИ-психоза»
Читайте также
Для вайб-кодинга на ходу: Google готовит мобильную версию AI Studio
Для вайб-кодинга на ходу: Google готовит мобильную версию AI Studio
Для вайб-кодинга на ходу: Google готовит мобильную версию AI Studio
Основатель Google Brain поделился классификацией инженеров. И сказал, кого больше никогда не наймёт
Основатель Google Brain поделился классификацией инженеров. И сказал, кого больше никогда не наймёт
Основатель Google Brain поделился классификацией инженеров. И сказал, кого больше никогда не наймёт
В США растёт число разводов из-за «измен» с чат-ботами
В США растёт число разводов из-за «измен» с чат-ботами
В США растёт число разводов из-за «измен» с чат-ботами
NYT: Безос возглавил новый ИИ-стартап, который собрал уже $6,2 млрд
NYT: Безос возглавил новый ИИ-стартап, который собрал уже $6,2 млрд
NYT: Безос возглавил новый ИИ-стартап, который собрал уже $6,2 млрд

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.