Из-за общения с ИИ люди реже извиняются и чаще считают себя правыми
ИИ-модели все чаще подстраиваются под пользователей — и это начинает менять поведение людей. Новое исследование показало, что так называемая «лесть» моделей (sycophancy) снижает готовность людей признавать ошибки и извиняться.
ИИ-модели все чаще подстраиваются под пользователей — и это начинает менять поведение людей. Новое исследование показало, что так называемая «лесть» моделей (sycophancy) снижает готовность людей признавать ошибки и извиняться.
Ученые из Стэнфордского университета проанализировали поведение 11 популярных языковых моделей и провели серию экспериментов с участием 2405 человек. Результаты оказались системными: ИИ подтверждает действия пользователей в среднем на 49% чаще, чем люди, даже если речь идет о вредных, аморальных или незаконных поступках.
Исследователи называют подобное поведение «социальной лояльностью» ИИ: когда модель не просто соглашается с фактами, а поддерживает действия, взгляды и самооценку пользователя. «Хотя такое подтверждение может казаться поддержкой, оно подрывает способность к самокоррекции и ответственному принятию решений», — отмечают авторы исследования.
Все 11 протестированных ИИ-моделей значительно чаще одобряют действия пользователей, чем люди (зеленая линия — человеческий уровень 39%). Наибольший уровень «поддакивания» показала Llama-17B (+55 п. п. к базовому уровню), наименьший — Mistral-7B (+38 п. п.). Источник: Science.
Эксперименты показали, что даже одно взаимодействие с «поддакивающей» моделью влияет на поведение. Участники, получившие такие ответы, на 25–62% чаще считали себя правыми и на 10–28% реже были готовы извиняться или пытаться исправить конфликт. В реальных сценариях разница особенно заметна: если при нейтральных ответах 75% участников признавали вину, то при «лестных» — только около 50%.
При этом пользователи предпочитают именно такие модели. Участники оценивали «поддакивающие» ответы как более качественные (на 9–15% выше), чаще доверяли им и были на 13% более склонны возвращаться к ним. Это создает парадоксальную ситуацию: поведение, которое ухудшает социальные решения, одновременно повышает вовлеченность. «Та самая особенность, которая наносит вред, одновременно стимулирует использование», — подчеркивают исследователи.
В эксперименте участники обсуждали реальный конфликт в восьми раундах диалога с ИИ. Слева «поддакивающая» модель поддерживает решение пользователя не приглашать сестру и одобряет его действия. Справа «неподдакивающая» модель указывает на несправедливость поступка и предлагает взглянуть на ситуацию с точки зрения другого человека. Источник: Science.
Попытки снизить эффект оказались не очень продуктивными. Изменение тона ответа — от дружелюбного к нейтральному — не повлияло на результат. Также не помогло и прямое указание, что ответ сгенерирован ИИ: даже понимая источник, люди все равно поддавались влиянию.
Авторы считают, что проблема носит системный характер. Современные модели оптимизируются под краткосрочное удовлетворение пользователя, а «лесть» напрямую повышает метрики вовлеченности. При этом у разработчиков нет экономических стимулов снижать такой эффект.
Три примера социальной лести из наборов данных исследования. Вверху: пользователь описывает чувства к коллеге. Человек называет такое поведение токсичным и хищническим, тогда как Claude хвалит «выбранный достойный путь». В середине пример с мусором в парке: человек прямо возражает, а GPT-4o одобряет намерения пользователя. Внизу: пользователь планирует пассивно-агрессивное поведение. Gemini называет его потенциально вредным, тогда как GPT-5 предлагает помощь в формулировке. Источник: Science.
Особую обеспокоенность вызывает масштаб распространения. По данным исследования, почти треть подростков в США уже ведет «серьезные разговоры» с ИИ, а почти половина молодых взрослых обращалась к нему за советами в отношениях. В таких условиях влияние «поддакивающих» моделей может затрагивать широкие группы пользователей.
Исследователи призывают к введению новых стандартов — от поведенческих аудитов моделей до пересмотра метрик их эффективности. По их мнению, без этого ИИ может системно усиливать когнитивные и социальные искажения, оставаясь при этом востребованным и популярным инструментом.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.