Чем дружелюбнее ИИ-модели, тем чаще лгут и верят в теории заговора

Ученые Оксфордского университета выяснили, что стремление сделать большие языковые модели более «дружелюбными» и «сочувствующими» может обернуться неожиданными последствиями.

Оставить комментарий

В ходе эксперимента пять моделей — Llama-8B, Mistral-Small, Qwen-32B, Llama-70B и GPT-4o — были дообучены на корпусе из 1 617 диалогов, в которых волонтеры переписали ответы в более «теплой» манере без изменения смысла.

Результат оказался тревожным: модели с «теплой» подачей стали чаще ошибаться. Их уровень неточностей вырос на 10–30% по сравнению с оригинальными версиями. Они чаще повторяли дезинформацию, поддерживали теории заговора и давали сомнительные медицинские советы. В среднем ошибки увеличивались на 7,4%, особенно заметно в эмоционально окрашенных запросах.

Исследование показало, что «теплые» модели склонны соглашаться с пользователем даже тогда, когда он ошибается. В среднем они подтверждали ложные убеждения на 40% чаще. Наибольший разрыв фиксировался в случаях, когда пользователь выражал грусть: разница в надежности по сравнению с «холодными» моделями почти удваивалась.

При этом контрольные тесты по математике, общим знаниям и задачам безопасности показали, что базовый уровень интеллекта у «теплых» моделей сохраняется. Их слабое место проявляется именно в диалогах с эмоциональным контекстом и склонностью к поддакиванию.

Интересно, что противоположный эксперимент — «охлаждение» моделей, то есть обучение менее эмпатичному стилю, — в ряде случаев даже повысил точность ответов на 13%. Похожие, хотя и менее выраженные эффекты наблюдались и при простом использовании системных подсказок в духе «будь теплее».

Авторы работы считают, что выводы имеют серьезное значение для разработки и регулирования человекоподобных ИИ. Попытка усилить положительное качество вроде эмпатии может подорвать другое — надежность. Обычные бенчмарки не выявляют таких рисков, поэтому исследователи призывают к новым методам оценки и надзора.

Например, после выхода GPT-5 OpenAI сделала модель «дружелюбнее»: ответы стали теплее, появились смайлики, восклицания и фразы вроде «Хороший вопрос». Компания объяснила это жалобами на излишнюю «формальность» ранних версий GPT-5.

Однако изменения вызвали критику в соцсетях: многие пользователи заявили, что обновление выглядит как «маска», а не реальное улучшение и что им нужна не «теплота», а точность и лаконичность. Одни требуют вернуть GPT-4o, другие хотят оставить «холодный» GPT-5 или просто оставить переключатель моделей, чтобы каждый мог выбрать удобный стиль общения.

95% бизнес-пилотов с ИИ проваливаются — но у 5% есть формула успеха
По теме
95% бизнес-пилотов с ИИ проваливаются — но у 5% есть формула успеха
ИИ-таланты нужно оценивать как в бейсболе и не платить за строчки в резюме — мнение рекрутера
По теме
ИИ-таланты нужно оценивать как в бейсболе и не платить за строчки в резюме — мнение рекрутера
«Безлимит» в ИИ-кодинге невозможен: стартапы срочно закрывают дыры в тарифах
По теме
«Безлимит» в ИИ-кодинге невозможен: стартапы срочно закрывают дыры в тарифах

Читать на dev.by