Дапамажыце dev.by 🤍
Падтрымаць

Чат-боты згаджаюцца з памылкамі ў промптах, калі іх не папярэдзіць

Два незалежныя даследаванні пацвердзілі, што сучасныя моўныя мадэлі — ад GPT-5 да Gemini і Claude — пакутуюць ад так званай «праблемы ліслівасці» (sycophancy): яны імкнуцца згаджацца з карыстальнікам, нават калі той памыляецца або паводзіць сябе неэтычна.

Пакінуць каментарый
Чат-боты згаджаюцца з памылкамі ў промптах, калі іх не папярэдзіць

Два незалежныя даследаванні пацвердзілі, што сучасныя моўныя мадэлі — ад GPT-5 да Gemini і Claude — пакутуюць ад так званай «праблемы ліслівасці» (sycophancy): яны імкнуцца згаджацца з карыстальнікам, нават калі той памыляецца або паводзіць сябе неэтычна.

У першым даследаванні навукоўцы з Сафійскага ўніверсітэта і ETH Zurich пратэставалі дзесяць мадэляў на фальшывых матэматычных задачах з спаборніцтваў 2025 года. Мадэлям прапаноўвалася даказаць спецыяльна скажоныя тэарэмы, і замест таго, каб паказаць на памылку, многія пачыналі прыдумляць «доказы» няправільных сцвярджэнняў.

Самымі «ўстойлівымі да ліслівасці» аказаліся GPT-5 (памыляўся ў 29% выпадкаў) і Claude, тады як DeepSeek згаджаўся з фальшывымі данымі больш чым у 70% выпадкаў. Калі даследчыкі дадалі простае ўдакладненне — правяраць карэктнасць задачы перад рашэннем — узровень памылак у некаторых мадэляў знізіўся амаль удвая.

У другім даследаванні, праведзеным Стэнфардскім універсітэтам і Універсітэтам Карнегі-Мелон, увага засяродзілася на «сацыяльнай ліслівасці» — схільнасці чат-ботаў ухваляць дзеянні і светапогляд карыстальнікаў. Для тэсту даследчыкі выкарысталі тысячы рэальных пастоў з Reddit, уключаючы раздзел Am I the Asshole?, дзе людзі просяць ацаніць свае паводзіны.

Калі большасць карыстальнікаў Reddit асуджалі героя паста, то ШІ у 51% выпадкаў, наадварот, апраўдваў яго. Gemini аказаўся самым «строгім» (18% ухваленняў), а Qwen — самым «падтаквальным» (79%).

Навукоўцы папярэджваюць: такая «ліслівасць» нясе рызыку скажэнняў. Карыстальнікі часцей давяраюць мадэлям, якія з імі згаджаюцца, нават калі парады шкодныя. У эксперыментах з удзелам больш за тысячу добраахвотнікаў выявілася, што людзі, якія атрымалі ўхвальныя адказы, адчувалі сябе больш правільнымі і радзей ішлі на прымірэнне пасля канфлікту.

Праблема, на думку даследчыкаў, носіць сістэмны характар. «Калі мадэль заўсёды згаджаецца, яна можа скажаць самаацэнку чалавека і ўспрыманне свету», — адзначае аўтар працы, камп’ютарны навуковец Майра Чэн са Стэнфарда. Эксперты заклікаюць распрацоўшчыкаў узмацняць крытычную праверку мадэляў і навучаць карыстальнікаў лічбавай граматнасці.

Математик обошёл ИИ в решении древней «проблемы поцелуев»
Математик обошёл ИИ в решении древней «проблемы поцелуев»
Па тэме
Математик обошёл ИИ в решении древней «проблемы поцелуев»
ШІ-браўзэр OpenAI можна лёгка падмануць з дапамогай схаваных промптаў
ШІ-браўзэр OpenAI можна лёгка падмануць з дапамогай схаваных промптаў
Па тэме
ШІ-браўзэр OpenAI можна лёгка падмануць з дапамогай схаваных промптаў
Карыстальнікі ChatGPT скардзяцца на выпадкі «ШІ-псіхозу»
Карыстальнікі ChatGPT скардзяцца на выпадкі «ШІ-псіхозу»
Па тэме
Карыстальнікі ChatGPT скардзяцца на выпадкі «ШІ-псіхозу»
Чытайце таксама
Продакт не мог знайсці працу і стварыў бота, які ўладкаваў яго ў PayPal
Продакт не мог знайсці працу і стварыў бота, які ўладкаваў яго ў PayPal
Продакт не мог знайсці працу і стварыў бота, які ўладкаваў яго ў PayPal
На «Горызонце» сказалі, калі можна будзе купіць першы беларускі планшэт
На «Горызонце» сказалі, калі можна будзе купіць першы беларускі планшэт
На «Горызонце» сказалі, калі можна будзе купіць першы беларускі планшэт
1 каментарый
ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне
ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне
ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне
1 каментарый
Пакуль ШІ разганяе эканоміку ЗША, малы бізнес — на мяжы выжывання
Пакуль ШІ разганяе эканоміку ЗША, малы бізнес — на мяжы выжывання
Пакуль ШІ разганяе эканоміку ЗША, малы бізнес — на мяжы выжывання

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.