🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Из-за общения с ИИ люди реже извиняются и чаще считают себя правыми

ИИ-модели все чаще подстраиваются под пользователей — и это начинает менять поведение людей. Новое исследование показало, что так называемая «лесть» моделей (sycophancy) снижает готовность людей признавать ошибки и извиняться.

Оставить комментарий
Из-за общения с ИИ люди реже извиняются и чаще считают себя правыми

ИИ-модели все чаще подстраиваются под пользователей — и это начинает менять поведение людей. Новое исследование показало, что так называемая «лесть» моделей (sycophancy) снижает готовность людей признавать ошибки и извиняться.

Ученые из Стэнфордского университета проанализировали поведение 11 популярных языковых моделей и провели серию экспериментов с участием 2405 человек. Результаты оказались системными: ИИ подтверждает действия пользователей в среднем на 49% чаще, чем люди, даже если речь идет о вредных, аморальных или незаконных поступках.

Исследователи называют подобное поведение «социальной лояльностью» ИИ: когда модель не просто соглашается с фактами, а поддерживает действия, взгляды и самооценку пользователя. «Хотя такое подтверждение может казаться поддержкой, оно подрывает способность к самокоррекции и ответственному принятию решений», — отмечают авторы исследования.

Все 11 протестированных ИИ-моделей значительно чаще одобряют действия пользователей, чем люди (зеленая линия — человеческий уровень 39%). Наибольший уровень «поддакивания» показала Llama-17B (+55 п. п. к базовому уровню), наименьший — Mistral-7B (+38 п. п.). Источник: Science.

Эксперименты показали, что даже одно взаимодействие с «поддакивающей» моделью влияет на поведение. Участники, получившие такие ответы, на 25–62% чаще считали себя правыми и на 10–28% реже были готовы извиняться или пытаться исправить конфликт. В реальных сценариях разница особенно заметна: если при нейтральных ответах 75% участников признавали вину, то при «лестных» — только около 50%.

При этом пользователи предпочитают именно такие модели. Участники оценивали «поддакивающие» ответы как более качественные (на 9–15% выше), чаще доверяли им и были на 13% более склонны возвращаться к ним. Это создает парадоксальную ситуацию: поведение, которое ухудшает социальные решения, одновременно повышает вовлеченность. «Та самая особенность, которая наносит вред, одновременно стимулирует использование», — подчеркивают исследователи.

В эксперименте участники обсуждали реальный конфликт в восьми раундах диалога с ИИ. Слева «поддакивающая» модель поддерживает решение пользователя не приглашать сестру и одобряет его действия. Справа «неподдакивающая» модель указывает на несправедливость поступка и предлагает взглянуть на ситуацию с точки зрения другого человека. Источник: Science.

Попытки снизить эффект оказались не очень продуктивными. Изменение тона ответа — от дружелюбного к нейтральному — не повлияло на результат. Также не помогло и прямое указание, что ответ сгенерирован ИИ: даже понимая источник, люди все равно поддавались влиянию.

Авторы считают, что проблема носит системный характер. Современные модели оптимизируются под краткосрочное удовлетворение пользователя, а «лесть» напрямую повышает метрики вовлеченности. При этом у разработчиков нет экономических стимулов снижать такой эффект.

Три примера социальной лести из наборов данных исследования. Вверху: пользователь описывает чувства к коллеге. Человек называет такое поведение токсичным и хищническим, тогда как Claude хвалит «выбранный достойный путь». В середине пример с мусором в парке: человек прямо возражает, а GPT-4o одобряет намерения пользователя. Внизу: пользователь планирует пассивно-агрессивное поведение. Gemini называет его потенциально вредным, тогда как GPT-5 предлагает помощь в формулировке. Источник: Science.

Особую обеспокоенность вызывает масштаб распространения. По данным исследования, почти треть подростков в США уже ведет «серьезные разговоры» с ИИ, а почти половина молодых взрослых обращалась к нему за советами в отношениях. В таких условиях влияние «поддакивающих» моделей может затрагивать широкие группы пользователей.

Исследователи призывают к введению новых стандартов — от поведенческих аудитов моделей до пересмотра метрик их эффективности. По их мнению, без этого ИИ может системно усиливать когнитивные и социальные искажения, оставаясь при этом востребованным и популярным инструментом.

Не просите ИИ «побыть экспертом» — кодинг становится только хуже
Не просите ИИ «побыть экспертом» — кодинг становится только хуже
По теме
Не просите ИИ «побыть экспертом» — кодинг становится только хуже
Боты обогнали людей: ИИ стал главным источником трафика в интернете
Боты обогнали людей: ИИ стал главным источником трафика в интернете
По теме
Боты обогнали людей: ИИ стал главным источником трафика в интернете
«Списать не получится»: американские вузы возвращают устные экзамены из-за ИИ
«Списать не получится»: американские вузы возвращают устные экзамены из-за ИИ 
По теме
«Списать не получится»: американские вузы возвращают устные экзамены из-за ИИ
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
ChatGPT оправдывает людей, даже когда они очевидно неправы
ChatGPT оправдывает людей, даже когда они очевидно неправы
ChatGPT оправдывает людей, даже когда они очевидно неправы
Чат-боты соглашаются с ошибками в промптах, если их не предупредить
Чат-боты соглашаются с ошибками в промптах, если их не предупредить
Чат-боты соглашаются с ошибками в промптах, если их не предупредить
Чем умнее становится ИИ, тем эгоистичнее он себя ведёт
Чем умнее становится ИИ, тем эгоистичнее он себя ведёт
Чем умнее становится ИИ, тем эгоистичнее он себя ведёт
OpenAI научила ChatGPT признаваться в ошибках
OpenAI научила ChatGPT признаваться в ошибках
OpenAI научила ChatGPT признаваться в ошибках
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.