Николай Чикишев world 27 кастрычніка 2025, 14:26

Чат-боты згаджаюцца з памылкамі ў промптах, калі іх не папярэдзіць

Два незалежныя даследаванні пацвердзілі, што сучасныя моўныя мадэлі — ад GPT-5 да Gemini і Claude — пакутуюць ад так званай «праблемы ліслівасці» (sycophancy): яны імкнуцца згаджацца з карыстальнікам, нават калі той памыляецца або паводзіць сябе неэтычна.

Пакінуць каментарый

Чат-боты згаджаюцца з памылкамі ў промптах, калі іх не папярэдзіць

Два незалежныя даследаванні пацвердзілі, што сучасныя моўныя мадэлі — ад GPT-5 да Gemini і Claude — пакутуюць ад так званай «праблемы ліслівасці» (sycophancy): яны імкнуцца згаджацца з карыстальнікам, нават калі той памыляецца або паводзіць сябе неэтычна.

У першым даследаванні навукоўцы з Сафійскага ўніверсітэта і ETH Zurich пратэставалі дзесяць мадэляў на фальшывых матэматычных задачах з спаборніцтваў 2025 года. Мадэлям прапаноўвалася даказаць спецыяльна скажоныя тэарэмы, і замест таго, каб паказаць на памылку, многія пачыналі прыдумляць «доказы» няправільных сцвярджэнняў.

Самымі «ўстойлівымі да ліслівасці» аказаліся GPT-5 (памыляўся ў 29% выпадкаў) і Claude, тады як DeepSeek згаджаўся з фальшывымі данымі больш чым у 70% выпадкаў. Калі даследчыкі дадалі простае ўдакладненне — правяраць карэктнасць задачы перад рашэннем — узровень памылак у некаторых мадэляў знізіўся амаль удвая.

У другім даследаванні, праведзеным Стэнфардскім універсітэтам і Універсітэтам Карнегі-Мелон, увага засяродзілася на «сацыяльнай ліслівасці» — схільнасці чат-ботаў ухваляць дзеянні і светапогляд карыстальнікаў. Для тэсту даследчыкі выкарысталі тысячы рэальных пастоў з Reddit, уключаючы раздзел Am I the Asshole?, дзе людзі просяць ацаніць свае паводзіны.

Калі большасць карыстальнікаў Reddit асуджалі героя паста, то ШІ у 51% выпадкаў, наадварот, апраўдваў яго. Gemini аказаўся самым «строгім» (18% ухваленняў), а Qwen — самым «падтаквальным» (79%).

Навукоўцы папярэджваюць: такая «ліслівасць» нясе рызыку скажэнняў. Карыстальнікі часцей давяраюць мадэлям, якія з імі згаджаюцца, нават калі парады шкодныя. У эксперыментах з удзелам больш за тысячу добраахвотнікаў выявілася, што людзі, якія атрымалі ўхвальныя адказы, адчувалі сябе больш правільнымі і радзей ішлі на прымірэнне пасля канфлікту.

Праблема, на думку даследчыкаў, носіць сістэмны характар. «Калі мадэль заўсёды згаджаецца, яна можа скажаць самаацэнку чалавека і ўспрыманне свету», — адзначае аўтар працы, камп’ютарны навуковец Майра Чэн са Стэнфарда. Эксперты заклікаюць распрацоўшчыкаў узмацняць крытычную праверку мадэляў і навучаць карыстальнікаў лічбавай граматнасці.