Дапамажыце dev.by 🤍
Падтрымаць

Чат-боты згаджаюцца з памылкамі ў промптах, калі іх не папярэдзіць

Два незалежныя даследаванні пацвердзілі, што сучасныя моўныя мадэлі — ад GPT-5 да Gemini і Claude — пакутуюць ад так званай «праблемы ліслівасці» (sycophancy): яны імкнуцца згаджацца з карыстальнікам, нават калі той памыляецца або паводзіць сябе неэтычна.

Пакінуць каментарый
Чат-боты згаджаюцца з памылкамі ў промптах, калі іх не папярэдзіць

Два незалежныя даследаванні пацвердзілі, што сучасныя моўныя мадэлі — ад GPT-5 да Gemini і Claude — пакутуюць ад так званай «праблемы ліслівасці» (sycophancy): яны імкнуцца згаджацца з карыстальнікам, нават калі той памыляецца або паводзіць сябе неэтычна.

У першым даследаванні навукоўцы з Сафійскага ўніверсітэта і ETH Zurich пратэставалі дзесяць мадэляў на фальшывых матэматычных задачах з спаборніцтваў 2025 года. Мадэлям прапаноўвалася даказаць спецыяльна скажоныя тэарэмы, і замест таго, каб паказаць на памылку, многія пачыналі прыдумляць «доказы» няправільных сцвярджэнняў.

Самымі «ўстойлівымі да ліслівасці» аказаліся GPT-5 (памыляўся ў 29% выпадкаў) і Claude, тады як DeepSeek згаджаўся з фальшывымі данымі больш чым у 70% выпадкаў. Калі даследчыкі дадалі простае ўдакладненне — правяраць карэктнасць задачы перад рашэннем — узровень памылак у некаторых мадэляў знізіўся амаль удвая.

У другім даследаванні, праведзеным Стэнфардскім універсітэтам і Універсітэтам Карнегі-Мелон, увага засяродзілася на «сацыяльнай ліслівасці» — схільнасці чат-ботаў ухваляць дзеянні і светапогляд карыстальнікаў. Для тэсту даследчыкі выкарысталі тысячы рэальных пастоў з Reddit, уключаючы раздзел Am I the Asshole?, дзе людзі просяць ацаніць свае паводзіны.

Калі большасць карыстальнікаў Reddit асуджалі героя паста, то ШІ у 51% выпадкаў, наадварот, апраўдваў яго. Gemini аказаўся самым «строгім» (18% ухваленняў), а Qwen — самым «падтаквальным» (79%).

Навукоўцы папярэджваюць: такая «ліслівасць» нясе рызыку скажэнняў. Карыстальнікі часцей давяраюць мадэлям, якія з імі згаджаюцца, нават калі парады шкодныя. У эксперыментах з удзелам больш за тысячу добраахвотнікаў выявілася, што людзі, якія атрымалі ўхвальныя адказы, адчувалі сябе больш правільнымі і радзей ішлі на прымірэнне пасля канфлікту.

Праблема, на думку даследчыкаў, носіць сістэмны характар. «Калі мадэль заўсёды згаджаецца, яна можа скажаць самаацэнку чалавека і ўспрыманне свету», — адзначае аўтар працы, камп’ютарны навуковец Майра Чэн са Стэнфарда. Эксперты заклікаюць распрацоўшчыкаў узмацняць крытычную праверку мадэляў і навучаць карыстальнікаў лічбавай граматнасці.

Математик обошёл ИИ в решении древней «проблемы поцелуев»
Математик обошёл ИИ в решении древней «проблемы поцелуев»
Па тэме
Математик обошёл ИИ в решении древней «проблемы поцелуев»
ШІ-браўзэр OpenAI можна лёгка падмануць з дапамогай схаваных промптаў
ШІ-браўзэр OpenAI можна лёгка падмануць з дапамогай схаваных промптаў
Па тэме
ШІ-браўзэр OpenAI можна лёгка падмануць з дапамогай схаваных промптаў
Карыстальнікі ChatGPT скардзяцца на выпадкі «ШІ-псіхозу»
Карыстальнікі ChatGPT скардзяцца на выпадкі «ШІ-псіхозу»
Па тэме
Карыстальнікі ChatGPT скардзяцца на выпадкі «ШІ-псіхозу»
Чытайце таксама
«Усе ў паніцы»: ШІ пакідае джунаў без працы не толькі ў ЗША
«Усе ў паніцы»: ШІ пакідае джунаў без працы не толькі ў ЗША
«Усе ў паніцы»: ШІ пакідае джунаў без працы не толькі ў ЗША
OpenAI шукае супрацоўніка на «напружаную» вакансію на паўмільёна даляраў. Вось каго
OpenAI шукае супрацоўніка на «напружаную» вакансію на паўмільёна даляраў. Вось каго
OpenAI шукае супрацоўніка на «напружаную» вакансію на паўмільёна даляраў. Вось каго
У Мінску паставілі казку аб перамозе дабра над ШІ. Будуць паўтараць кожны дзень да Калядаў
У Мінску паставілі казку аб перамозе дабра над ШІ. Будуць паўтараць кожны дзень да Калядаў
У Мінску паставілі казку аб перамозе дабра над ШІ. Будуць паўтараць кожны дзень да Калядаў
3 каментарыя
Горшая ў Еўропе: Беларусь засвяцілася ў сусветным рэйтынгу ШІ
Горшая ў Еўропе: Беларусь засвяцілася ў сусветным рэйтынгу ШІ
Горшая ў Еўропе: Беларусь засвяцілася ў сусветным рэйтынгу ШІ
7 каментарыяў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.