Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

Чем дружелюбнее ИИ-модели, тем чаще лгут и верят в теории заговора

Ученые Оксфордского университета выяснили, что стремление сделать большие языковые модели более «дружелюбными» и «сочувствующими» может обернуться неожиданными последствиями.

Оставить комментарий
Чем дружелюбнее ИИ-модели, тем чаще лгут и верят в теории заговора

Ученые Оксфордского университета выяснили, что стремление сделать большие языковые модели более «дружелюбными» и «сочувствующими» может обернуться неожиданными последствиями.

В ходе эксперимента пять моделей — Llama-8B, Mistral-Small, Qwen-32B, Llama-70B и GPT-4o — были дообучены на корпусе из 1 617 диалогов, в которых волонтеры переписали ответы в более «теплой» манере без изменения смысла.

Результат оказался тревожным: модели с «теплой» подачей стали чаще ошибаться. Их уровень неточностей вырос на 10–30% по сравнению с оригинальными версиями. Они чаще повторяли дезинформацию, поддерживали теории заговора и давали сомнительные медицинские советы. В среднем ошибки увеличивались на 7,4%, особенно заметно в эмоционально окрашенных запросах.

Исследование показало, что «теплые» модели склонны соглашаться с пользователем даже тогда, когда он ошибается. В среднем они подтверждали ложные убеждения на 40% чаще. Наибольший разрыв фиксировался в случаях, когда пользователь выражал грусть: разница в надежности по сравнению с «холодными» моделями почти удваивалась.

При этом контрольные тесты по математике, общим знаниям и задачам безопасности показали, что базовый уровень интеллекта у «теплых» моделей сохраняется. Их слабое место проявляется именно в диалогах с эмоциональным контекстом и склонностью к поддакиванию.

Интересно, что противоположный эксперимент — «охлаждение» моделей, то есть обучение менее эмпатичному стилю, — в ряде случаев даже повысил точность ответов на 13%. Похожие, хотя и менее выраженные эффекты наблюдались и при простом использовании системных подсказок в духе «будь теплее».

Авторы работы считают, что выводы имеют серьезное значение для разработки и регулирования человекоподобных ИИ. Попытка усилить положительное качество вроде эмпатии может подорвать другое — надежность. Обычные бенчмарки не выявляют таких рисков, поэтому исследователи призывают к новым методам оценки и надзора.

Например, после выхода GPT-5 OpenAI сделала модель «дружелюбнее»: ответы стали теплее, появились смайлики, восклицания и фразы вроде «Хороший вопрос». Компания объяснила это жалобами на излишнюю «формальность» ранних версий GPT-5.

Однако изменения вызвали критику в соцсетях: многие пользователи заявили, что обновление выглядит как «маска», а не реальное улучшение и что им нужна не «теплота», а точность и лаконичность. Одни требуют вернуть GPT-4o, другие хотят оставить «холодный» GPT-5 или просто оставить переключатель моделей, чтобы каждый мог выбрать удобный стиль общения.

95% бизнес-пилотов с ИИ проваливаются — но у 5% есть формула успеха
95% бизнес-пилотов с ИИ проваливаются — но у 5% есть формула успеха
По теме
95% бизнес-пилотов с ИИ проваливаются — но у 5% есть формула успеха
ИИ-таланты нужно оценивать как в бейсболе и не платить за строчки в резюме — мнение рекрутера
ИИ-таланты нужно оценивать как в бейсболе и не платить за строчки в резюме — мнение рекрутера
По теме
ИИ-таланты нужно оценивать как в бейсболе и не платить за строчки в резюме — мнение рекрутера
«Безлимит» в ИИ-кодинге невозможен: стартапы срочно закрывают дыры в тарифах
«Безлимит» в ИИ-кодинге невозможен: стартапы срочно закрывают дыры в тарифах
По теме
«Безлимит» в ИИ-кодинге невозможен: стартапы срочно закрывают дыры в тарифах
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
Все говорят об ИИ-пузыре — но на рынке не всё так плохо
Все говорят об ИИ-пузыре — но на рынке не всё так плохо
Все говорят об ИИ-пузыре — но на рынке не всё так плохо
«ИИ-иммигранты»: глава Nvidia объяснил, кто будет работать вместо людей
«ИИ-иммигранты»: глава Nvidia объяснил, кто будет работать вместо людей
«ИИ-иммигранты»: глава Nvidia объяснил, кто будет работать вместо людей
Кризис нехватки оперативной памяти затянется на годы. Компании ищут выход
Кризис нехватки оперативной памяти затянется на годы. Компании ищут выход
Кризис нехватки оперативной памяти затянется на годы. Компании ищут выход
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.