Николай Чикишев world 19 жніўня 2025, 13:15

Чым даброзычлівейшыя ШІ-мадэлі, тым часцей яны хлусяць і вераць у тэорыі змовы

Навукоўцы Оксфардскага ўніверсітэта высветлілі, што імкненне зрабіць вялікія моўныя мадэлі больш «сяброўскімі» і «спагадлівымі» можа прывесці да нечаканых наступстваў.

Пакінуць каментарый

Чым даброзычлівейшыя ШІ-мадэлі, тым часцей яны хлусяць і вераць у тэорыі змовы

Навукоўцы Оксфардскага ўніверсітэта высветлілі, што імкненне зрабіць вялікія моўныя мадэлі больш «сяброўскімі» і «спагадлівымі» можа прывесці да нечаканых наступстваў.

У ходзе эксперыменту пяць мадэляў — Llama-8B, Mistral-Small, Qwen-32B, Llama-70B і GPT-4o — былі дадаткова навучаны на корпусе з 1 617 дыялогаў, у якіх валанцёры перапісалі адказы ў больш «цёплай» манеры без змены сэнсу.

Вынік аказаўся трывожным: мадэлі з «цёплай» падачай сталі часцей памыляцца. Іх узровень недакладнасцяў вырас на 10–30% у параўнанні з арыгінальнымі версіямі. Яны часцей паўтаралі дэзінфармацыю, падтрымлівалі тэорыі змовы і давалі сумнеўныя медыцынскія парады. У сярэднім памылкі павялічваліся на 7,4%, асабліва прыкметна ў эмацыйна афарбаваных запытах.

Даследаванне паказала, што «цёплыя» мадэлі схільныя згаджацца з карыстальнікам нават тады, калі ён памыляецца. У сярэднім яны пацвярджалі ілжывыя перакананні на 40% часцей. Найбольшы разрыў фіксаваўся ў выпадках, калі карыстальнік выказваў смутак: розніца ў надзейнасці ў параўнанні з «халоднымі» мадэлямі амаль падвойвалася.

Пры гэтым кантрольныя тэсты па матэматыцы, агульных ведах і задачах бяспекі паказалі, што базавы ўзровень інтэлекту ў «цёплых» мадэляў захоўваецца. Іх слабае месца праяўляецца менавіта ў дыялогах з эмацыйным кантэкстам і схільнасцю да падтаквання.

Цікава, што супрацьлеглы эксперымент — «ахаладжэнне» мадэляў, гэта значыць навучанне менш эмпатычнаму стылю, — у шэрагу выпадкаў нават павысіў дакладнасць адказаў на 13%. Падобныя, хоць і менш выяўленыя эфекты назіраліся і пры простым выкарыстанні сістэмных падказак у духу «будзь цяплей».

Аўтары працы лічаць, што высновы маюць сур’ёзнае значэнне для распрацоўкі і рэгулявання чалавекападобных ШІ. Спроба ўзмацніць станоўчую якасць накшталт эмпатыі можа падарваць іншую — надзейнасць. Звычайныя бэнчмаркі не выяўляюць такіх рызык, таму даследчыкі заклікаюць да новых метадаў ацэнкі і нагляду.

Напрыклад, пасля выхаду GPT-5 OpenAI зрабіла мадэль «сяброўскай»: адказы сталі цяплейшымі, з’явіліся смайлікі, выклічнікі і фразы накшталт «Добрае пытанне». Кампанія патлумачыла гэта скаргамі на залішнюю «фармальнасць» ранніх версій GPT-5.

Аднак змены выклікалі крытыку ў сацсетках: многія карыстальнікі заявілі, што абнаўленне выглядае як «маска», а не рэальнае паляпшэнне і што ім патрэбна не «цеплыня», а дакладнасць і лаканічнасць. Адны патрабуюць вярнуць GPT-4o, іншыя хочуць пакінуць «халодны» GPT-5 або проста пакінуць пераключальнік мадэляў, каб кожны мог выбраць зручны стыль зносін.