Дапамажыце dev.by 🤍
Падтрымаць

Чым даброзычлівейшыя ШІ-мадэлі, тым часцей яны хлусяць і вераць у тэорыі змовы

Навукоўцы Оксфардскага ўніверсітэта высветлілі, што імкненне зрабіць вялікія моўныя мадэлі больш «сяброўскімі» і «спагадлівымі» можа прывесці да нечаканых наступстваў.

Пакінуць каментарый
Чым даброзычлівейшыя ШІ-мадэлі, тым часцей яны хлусяць і вераць у тэорыі змовы

Навукоўцы Оксфардскага ўніверсітэта высветлілі, што імкненне зрабіць вялікія моўныя мадэлі больш «сяброўскімі» і «спагадлівымі» можа прывесці да нечаканых наступстваў.

У ходзе эксперыменту пяць мадэляў — Llama-8B, Mistral-Small, Qwen-32B, Llama-70B і GPT-4o — былі дадаткова навучаны на корпусе з 1 617 дыялогаў, у якіх валанцёры перапісалі адказы ў больш «цёплай» манеры без змены сэнсу.

Вынік аказаўся трывожным: мадэлі з «цёплай» падачай сталі часцей памыляцца. Іх узровень недакладнасцяў вырас на 10–30% у параўнанні з арыгінальнымі версіямі. Яны часцей паўтаралі дэзінфармацыю, падтрымлівалі тэорыі змовы і давалі сумнеўныя медыцынскія парады. У сярэднім памылкі павялічваліся на 7,4%, асабліва прыкметна ў эмацыйна афарбаваных запытах.

Даследаванне паказала, што «цёплыя» мадэлі схільныя згаджацца з карыстальнікам нават тады, калі ён памыляецца. У сярэднім яны пацвярджалі ілжывыя перакананні на 40% часцей. Найбольшы разрыў фіксаваўся ў выпадках, калі карыстальнік выказваў смутак: розніца ў надзейнасці ў параўнанні з «халоднымі» мадэлямі амаль падвойвалася.

Пры гэтым кантрольныя тэсты па матэматыцы, агульных ведах і задачах бяспекі паказалі, што базавы ўзровень інтэлекту ў «цёплых» мадэляў захоўваецца. Іх слабае месца праяўляецца менавіта ў дыялогах з эмацыйным кантэкстам і схільнасцю да падтаквання.

Цікава, што супрацьлеглы эксперымент — «ахаладжэнне» мадэляў, гэта значыць навучанне менш эмпатычнаму стылю, — у шэрагу выпадкаў нават павысіў дакладнасць адказаў на 13%. Падобныя, хоць і менш выяўленыя эфекты назіраліся і пры простым выкарыстанні сістэмных падказак у духу «будзь цяплей».

Аўтары працы лічаць, што высновы маюць сур’ёзнае значэнне для распрацоўкі і рэгулявання чалавекападобных ШІ. Спроба ўзмацніць станоўчую якасць накшталт эмпатыі можа падарваць іншую — надзейнасць. Звычайныя бэнчмаркі не выяўляюць такіх рызык, таму даследчыкі заклікаюць да новых метадаў ацэнкі і нагляду.

Напрыклад, пасля выхаду GPT-5 OpenAI зрабіла мадэль «сяброўскай»: адказы сталі цяплейшымі, з’явіліся смайлікі, выклічнікі і фразы накшталт «Добрае пытанне». Кампанія патлумачыла гэта скаргамі на залішнюю «фармальнасць» ранніх версій GPT-5.

Аднак змены выклікалі крытыку ў сацсетках: многія карыстальнікі заявілі, што абнаўленне выглядае як «маска», а не рэальнае паляпшэнне і што ім патрэбна не «цеплыня», а дакладнасць і лаканічнасць. Адны патрабуюць вярнуць GPT-4o, іншыя хочуць пакінуць «халодны» GPT-5 або проста пакінуць пераключальнік мадэляў, каб кожны мог выбраць зручны стыль зносін.

95% бізнес-пілотаў з ШІ праваліваюцца — але ў 5% ёсць формула поспеху
95% бізнес-пілотаў з ШІ праваліваюцца — але ў 5% ёсць формула поспеху
Па тэме
95% бізнес-пілотаў з ШІ праваліваюцца — але ў 5% ёсць формула поспеху
ШІ-таленты трэба ацэньваць як у бейсболе і не плаціць за радкі ў рэзюмэ — меркаванне рэкрутара
ШІ-таленты трэба ацэньваць як у бейсболе і не плаціць за радкі ў рэзюмэ — меркаванне рэкрутара
Па тэме
ШІ-таленты трэба ацэньваць як у бейсболе і не плаціць за радкі ў рэзюмэ — меркаванне рэкрутара
«Безліміт» у ШІ-кадаванні немагчымы: стартапы тэрмінова закрываюць дзіркі ў тарыфах
«Безліміт» у ШІ-кадаванні немагчымы: стартапы тэрмінова закрываюць дзіркі ў тарыфах
Па тэме
«Безліміт» у ШІ-кадаванні немагчымы: стартапы тэрмінова закрываюць дзіркі ў тарыфах
Чытайце таксама
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.