Чем дружелюбнее ИИ-модели, тем чаще лгут и верят в теории заговора
Ученые Оксфордского университета выяснили, что стремление сделать большие языковые модели более «дружелюбными» и «сочувствующими» может обернуться неожиданными последствиями.
Ученые Оксфордского университета выяснили, что стремление сделать большие языковые модели более «дружелюбными» и «сочувствующими» может обернуться неожиданными последствиями.
Ученые Оксфордского университета выяснили, что стремление сделать большие языковые модели более «дружелюбными» и «сочувствующими» может обернуться неожиданными последствиями.
В ходе эксперимента пять моделей — Llama-8B, Mistral-Small, Qwen-32B, Llama-70B и GPT-4o — были дообучены на корпусе из 1 617 диалогов, в которых волонтеры переписали ответы в более «теплой» манере без изменения смысла.
Результат оказался тревожным: модели с «теплой» подачей стали чаще ошибаться. Их уровень неточностей вырос на 10–30% по сравнению с оригинальными версиями. Они чаще повторяли дезинформацию, поддерживали теории заговора и давали сомнительные медицинские советы. В среднем ошибки увеличивались на 7,4%, особенно заметно в эмоционально окрашенных запросах.
Исследование показало, что «теплые» модели склонны соглашаться с пользователем даже тогда, когда он ошибается. В среднем они подтверждали ложные убеждения на 40% чаще. Наибольший разрыв фиксировался в случаях, когда пользователь выражал грусть: разница в надежности по сравнению с «холодными» моделями почти удваивалась.
При этом контрольные тесты по математике, общим знаниям и задачам безопасности показали, что базовый уровень интеллекта у «теплых» моделей сохраняется. Их слабое место проявляется именно в диалогах с эмоциональным контекстом и склонностью к поддакиванию.
Интересно, что противоположный эксперимент — «охлаждение» моделей, то есть обучение менее эмпатичному стилю, — в ряде случаев даже повысил точность ответов на 13%. Похожие, хотя и менее выраженные эффекты наблюдались и при простом использовании системных подсказок в духе «будь теплее».
Авторы работы считают, что выводы имеют серьезное значение для разработки и регулирования человекоподобных ИИ. Попытка усилить положительное качество вроде эмпатии может подорвать другое — надежность. Обычные бенчмарки не выявляют таких рисков, поэтому исследователи призывают к новым методам оценки и надзора.
Например, после выхода GPT-5 OpenAI сделала модель «дружелюбнее»: ответы стали теплее, появились смайлики, восклицания и фразы вроде «Хороший вопрос». Компания объяснила это жалобами на излишнюю «формальность» ранних версий GPT-5.
Однако изменения вызвали критику в соцсетях: многие пользователи заявили, что обновление выглядит как «маска», а не реальное улучшение и что им нужна не «теплота», а точность и лаконичность. Одни требуют вернуть GPT-4o, другие хотят оставить «холодный» GPT-5 или просто оставить переключатель моделей, чтобы каждый мог выбрать удобный стиль общения.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.