87% компаний используют ИИ в найме. А вы готовы к такому?
Support us

Чем дружелюбнее ИИ-модели, тем чаще лгут и верят в теории заговора

Ученые Оксфордского университета выяснили, что стремление сделать большие языковые модели более «дружелюбными» и «сочувствующими» может обернуться неожиданными последствиями.

Оставить комментарий
Чем дружелюбнее ИИ-модели, тем чаще лгут и верят в теории заговора

Ученые Оксфордского университета выяснили, что стремление сделать большие языковые модели более «дружелюбными» и «сочувствующими» может обернуться неожиданными последствиями.

В ходе эксперимента пять моделей — Llama-8B, Mistral-Small, Qwen-32B, Llama-70B и GPT-4o — были дообучены на корпусе из 1 617 диалогов, в которых волонтеры переписали ответы в более «теплой» манере без изменения смысла.

Результат оказался тревожным: модели с «теплой» подачей стали чаще ошибаться. Их уровень неточностей вырос на 10–30% по сравнению с оригинальными версиями. Они чаще повторяли дезинформацию, поддерживали теории заговора и давали сомнительные медицинские советы. В среднем ошибки увеличивались на 7,4%, особенно заметно в эмоционально окрашенных запросах.

Исследование показало, что «теплые» модели склонны соглашаться с пользователем даже тогда, когда он ошибается. В среднем они подтверждали ложные убеждения на 40% чаще. Наибольший разрыв фиксировался в случаях, когда пользователь выражал грусть: разница в надежности по сравнению с «холодными» моделями почти удваивалась.

При этом контрольные тесты по математике, общим знаниям и задачам безопасности показали, что базовый уровень интеллекта у «теплых» моделей сохраняется. Их слабое место проявляется именно в диалогах с эмоциональным контекстом и склонностью к поддакиванию.

Интересно, что противоположный эксперимент — «охлаждение» моделей, то есть обучение менее эмпатичному стилю, — в ряде случаев даже повысил точность ответов на 13%. Похожие, хотя и менее выраженные эффекты наблюдались и при простом использовании системных подсказок в духе «будь теплее».

Авторы работы считают, что выводы имеют серьезное значение для разработки и регулирования человекоподобных ИИ. Попытка усилить положительное качество вроде эмпатии может подорвать другое — надежность. Обычные бенчмарки не выявляют таких рисков, поэтому исследователи призывают к новым методам оценки и надзора.

Например, после выхода GPT-5 OpenAI сделала модель «дружелюбнее»: ответы стали теплее, появились смайлики, восклицания и фразы вроде «Хороший вопрос». Компания объяснила это жалобами на излишнюю «формальность» ранних версий GPT-5.

Однако изменения вызвали критику в соцсетях: многие пользователи заявили, что обновление выглядит как «маска», а не реальное улучшение и что им нужна не «теплота», а точность и лаконичность. Одни требуют вернуть GPT-4o, другие хотят оставить «холодный» GPT-5 или просто оставить переключатель моделей, чтобы каждый мог выбрать удобный стиль общения.

95% бизнес-пилотов с ИИ проваливаются — но у 5% есть формула успеха
95% бизнес-пилотов с ИИ проваливаются — но у 5% есть формула успеха
По теме
95% бизнес-пилотов с ИИ проваливаются — но у 5% есть формула успеха
ИИ-таланты нужно оценивать как в бейсболе и не платить за строчки в резюме — мнение рекрутера
ИИ-таланты нужно оценивать как в бейсболе и не платить за строчки в резюме — мнение рекрутера
По теме
ИИ-таланты нужно оценивать как в бейсболе и не платить за строчки в резюме — мнение рекрутера
«Безлимит» в ИИ-кодинге невозможен: стартапы срочно закрывают дыры в тарифах
«Безлимит» в ИИ-кодинге невозможен: стартапы срочно закрывают дыры в тарифах
По теме
«Безлимит» в ИИ-кодинге невозможен: стартапы срочно закрывают дыры в тарифах
Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.