Чым даброзычлівейшыя ШІ-мадэлі, тым часцей яны хлусяць і вераць у тэорыі змовы
Навукоўцы Оксфардскага ўніверсітэта высветлілі, што імкненне зрабіць вялікія моўныя мадэлі больш «сяброўскімі» і «спагадлівымі» можа прывесці да нечаканых наступстваў.
Навукоўцы Оксфардскага ўніверсітэта высветлілі, што імкненне зрабіць вялікія моўныя мадэлі больш «сяброўскімі» і «спагадлівымі» можа прывесці да нечаканых наступстваў.
Навукоўцы Оксфардскага ўніверсітэта высветлілі, што імкненне зрабіць вялікія моўныя мадэлі больш «сяброўскімі» і «спагадлівымі» можа прывесці да нечаканых наступстваў.
У ходзе эксперыменту пяць мадэляў — Llama-8B, Mistral-Small, Qwen-32B, Llama-70B і GPT-4o — былі дадаткова навучаны на корпусе з 1 617 дыялогаў, у якіх валанцёры перапісалі адказы ў больш «цёплай» манеры без змены сэнсу.
Вынік аказаўся трывожным: мадэлі з «цёплай» падачай сталі часцей памыляцца. Іх узровень недакладнасцяў вырас на 10–30% у параўнанні з арыгінальнымі версіямі. Яны часцей паўтаралі дэзінфармацыю, падтрымлівалі тэорыі змовы і давалі сумнеўныя медыцынскія парады. У сярэднім памылкі павялічваліся на 7,4%, асабліва прыкметна ў эмацыйна афарбаваных запытах.
Даследаванне паказала, што «цёплыя» мадэлі схільныя згаджацца з карыстальнікам нават тады, калі ён памыляецца. У сярэднім яны пацвярджалі ілжывыя перакананні на 40% часцей. Найбольшы разрыў фіксаваўся ў выпадках, калі карыстальнік выказваў смутак: розніца ў надзейнасці ў параўнанні з «халоднымі» мадэлямі амаль падвойвалася.
Пры гэтым кантрольныя тэсты па матэматыцы, агульных ведах і задачах бяспекі паказалі, што базавы ўзровень інтэлекту ў «цёплых» мадэляў захоўваецца. Іх слабае месца праяўляецца менавіта ў дыялогах з эмацыйным кантэкстам і схільнасцю да падтаквання.
Цікава, што супрацьлеглы эксперымент — «ахаладжэнне» мадэляў, гэта значыць навучанне менш эмпатычнаму стылю, — у шэрагу выпадкаў нават павысіў дакладнасць адказаў на 13%. Падобныя, хоць і менш выяўленыя эфекты назіраліся і пры простым выкарыстанні сістэмных падказак у духу «будзь цяплей».
Аўтары працы лічаць, што высновы маюць сур’ёзнае значэнне для распрацоўкі і рэгулявання чалавекападобных ШІ. Спроба ўзмацніць станоўчую якасць накшталт эмпатыі можа падарваць іншую — надзейнасць. Звычайныя бэнчмаркі не выяўляюць такіх рызык, таму даследчыкі заклікаюць да новых метадаў ацэнкі і нагляду.
Напрыклад, пасля выхаду GPT-5 OpenAI зрабіла мадэль «сяброўскай»: адказы сталі цяплейшымі, з’явіліся смайлікі, выклічнікі і фразы накшталт «Добрае пытанне». Кампанія патлумачыла гэта скаргамі на залішнюю «фармальнасць» ранніх версій GPT-5.
Аднак змены выклікалі крытыку ў сацсетках: многія карыстальнікі заявілі, што абнаўленне выглядае як «маска», а не рэальнае паляпшэнне і што ім патрэбна не «цеплыня», а дакладнасць і лаканічнасць. Адны патрабуюць вярнуць GPT-4o, іншыя хочуць пакінуць «халодны» GPT-5 або проста пакінуць пераключальнік мадэляў, каб кожны мог выбраць зручны стыль зносін.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.