Дапамажыце dev.by 🤍
Падтрымаць

Чым даброзычлівейшыя ШІ-мадэлі, тым часцей яны хлусяць і вераць у тэорыі змовы

Навукоўцы Оксфардскага ўніверсітэта высветлілі, што імкненне зрабіць вялікія моўныя мадэлі больш «сяброўскімі» і «спагадлівымі» можа прывесці да нечаканых наступстваў.

Пакінуць каментарый
Чым даброзычлівейшыя ШІ-мадэлі, тым часцей яны хлусяць і вераць у тэорыі змовы

Навукоўцы Оксфардскага ўніверсітэта высветлілі, што імкненне зрабіць вялікія моўныя мадэлі больш «сяброўскімі» і «спагадлівымі» можа прывесці да нечаканых наступстваў.

У ходзе эксперыменту пяць мадэляў — Llama-8B, Mistral-Small, Qwen-32B, Llama-70B і GPT-4o — былі дадаткова навучаны на корпусе з 1 617 дыялогаў, у якіх валанцёры перапісалі адказы ў больш «цёплай» манеры без змены сэнсу.

Вынік аказаўся трывожным: мадэлі з «цёплай» падачай сталі часцей памыляцца. Іх узровень недакладнасцяў вырас на 10–30% у параўнанні з арыгінальнымі версіямі. Яны часцей паўтаралі дэзінфармацыю, падтрымлівалі тэорыі змовы і давалі сумнеўныя медыцынскія парады. У сярэднім памылкі павялічваліся на 7,4%, асабліва прыкметна ў эмацыйна афарбаваных запытах.

Даследаванне паказала, што «цёплыя» мадэлі схільныя згаджацца з карыстальнікам нават тады, калі ён памыляецца. У сярэднім яны пацвярджалі ілжывыя перакананні на 40% часцей. Найбольшы разрыў фіксаваўся ў выпадках, калі карыстальнік выказваў смутак: розніца ў надзейнасці ў параўнанні з «халоднымі» мадэлямі амаль падвойвалася.

Пры гэтым кантрольныя тэсты па матэматыцы, агульных ведах і задачах бяспекі паказалі, што базавы ўзровень інтэлекту ў «цёплых» мадэляў захоўваецца. Іх слабае месца праяўляецца менавіта ў дыялогах з эмацыйным кантэкстам і схільнасцю да падтаквання.

Цікава, што супрацьлеглы эксперымент — «ахаладжэнне» мадэляў, гэта значыць навучанне менш эмпатычнаму стылю, — у шэрагу выпадкаў нават павысіў дакладнасць адказаў на 13%. Падобныя, хоць і менш выяўленыя эфекты назіраліся і пры простым выкарыстанні сістэмных падказак у духу «будзь цяплей».

Аўтары працы лічаць, што высновы маюць сур’ёзнае значэнне для распрацоўкі і рэгулявання чалавекападобных ШІ. Спроба ўзмацніць станоўчую якасць накшталт эмпатыі можа падарваць іншую — надзейнасць. Звычайныя бэнчмаркі не выяўляюць такіх рызык, таму даследчыкі заклікаюць да новых метадаў ацэнкі і нагляду.

Напрыклад, пасля выхаду GPT-5 OpenAI зрабіла мадэль «сяброўскай»: адказы сталі цяплейшымі, з’явіліся смайлікі, выклічнікі і фразы накшталт «Добрае пытанне». Кампанія патлумачыла гэта скаргамі на залішнюю «фармальнасць» ранніх версій GPT-5.

Аднак змены выклікалі крытыку ў сацсетках: многія карыстальнікі заявілі, што абнаўленне выглядае як «маска», а не рэальнае паляпшэнне і што ім патрэбна не «цеплыня», а дакладнасць і лаканічнасць. Адны патрабуюць вярнуць GPT-4o, іншыя хочуць пакінуць «халодны» GPT-5 або проста пакінуць пераключальнік мадэляў, каб кожны мог выбраць зручны стыль зносін.

95% бізнес-пілотаў з ШІ праваліваюцца — але ў 5% ёсць формула поспеху
95% бізнес-пілотаў з ШІ праваліваюцца — але ў 5% ёсць формула поспеху
Па тэме
95% бізнес-пілотаў з ШІ праваліваюцца — але ў 5% ёсць формула поспеху
ШІ-таленты трэба ацэньваць як у бейсболе і не плаціць за радкі ў рэзюмэ — меркаванне рэкрутара
ШІ-таленты трэба ацэньваць як у бейсболе і не плаціць за радкі ў рэзюмэ — меркаванне рэкрутара
Па тэме
ШІ-таленты трэба ацэньваць як у бейсболе і не плаціць за радкі ў рэзюмэ — меркаванне рэкрутара
«Безліміт» у ШІ-кадаванні немагчымы: стартапы тэрмінова закрываюць дзіркі ў тарыфах
«Безліміт» у ШІ-кадаванні немагчымы: стартапы тэрмінова закрываюць дзіркі ў тарыфах
Па тэме
«Безліміт» у ШІ-кадаванні немагчымы: стартапы тэрмінова закрываюць дзіркі ў тарыфах
Чытайце таксама
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.