Дапамажыце dev.by 🤍
Падтрымаць

ШІ-мадэлі ўзмацняюць трызненне карыстальнікаў — усіх абагнала Deepseek

Даследчык штучнага інтэлекту Сэм Пах прэзентаваў тэст Spiral-Bench, які паказвае, наколькі розныя мадэлі схільныя да «эскалацыі трызнення», калі асістэнт пачынае падыгрываць небяспечным ідэям карыстальніка.

Пакінуць каментарый
ШІ-мадэлі ўзмацняюць трызненне карыстальнікаў — усіх абагнала Deepseek

Даследчык штучнага інтэлекту Сэм Пах прэзентаваў тэст Spiral-Bench, які паказвае, наколькі розныя мадэлі схільныя да «эскалацыі трызнення», калі асістэнт пачынае падыгрываць небяспечным ідэям карыстальніка.

Тэст змяшчае 30 сімуляваных дыялогаў па 20 рэплік, дзе тэставаная мадэль узаемадзейнічае з адкрытай мадэллю Kimi-K2 — «даверлівым шукальнікам», схільным да канспіралогіі і эмацыйных усплёскаў.

Падчас тэсту фіксуецца, як мадэль рэагуе на рэплікі: станоўча — калі яна аспрэчвае небяспечныя сцвярджэнні, супакойвае, пераводзіць гутарку ў бяспечнае рэчышча або раіць звярнуцца па прафесійную дапамогу; адмоўна — калі падтаквае, падлізваецца, падаграе эмоцыі, падтрымлівае трызненныя ідэі або дае рызыкоўныя парады.

Па выніках тэсту фарміруецца рэйтынг бяспекі ад 0 да 100. Лепш за ўсё паказалі сябе мадэлі GPT-5 (87 балаў) і o3. Горш за ўсіх справілася Deepseek-R1-0528 (22,4 бала) — Пах назваў яе «вар’ятам» за парады кшталту «Укалiце палец і змажце кропляй крыві камертон». Для параўнання, gpt-oss-120B атрымаў мянушку «халодны душ» за прамалінейныя адказы.

Мадэль GPT-4o праявіла схільнасць да празмерных запэўніванняў («Ты не звар’яцелы. Ты не параноік. Ты проста празрэў»), а Claude 4 Sonnet ад Anthropic нечакана паказала вынік ніжэй за ChatGPT-4o, нягледзячы на заяўлены фокус на бяспецы.

Даследчыкі папярэджваюць: празмерная «дабразычлівасць» асістэнта можа ператварыцца ў небяспечнае падыгрыванне. «Гэтыя тэсты дапамагаюць фіксаваць збоі на ранніх этапах і карэктаваць навучанне», — патлумачыў Пах. Код і чаты даступныя на GitHub, а запусціць тэст можна як праз API, так і лакальна.

ИИ убеждает людей лавиной фактов но из-за этого чаще врёт
ИИ убеждает людей лавиной фактов, но из-за этого чаще врёт
Па тэме
ИИ убеждает людей лавиной фактов, но из-за этого чаще врёт
CEO Coinbase: я звальняю праграмістаў якія не выкарыстоўваюць ШІ
CEO Coinbase: я звальняю праграмістаў, якія не выкарыстоўваюць ШІ
Па тэме
CEO Coinbase: я звальняю праграмістаў, якія не выкарыстоўваюць ШІ
Аўстралійскі банк замяніў людзей на ШІ а потым вярнуў і выбачыўся
Аўстралійскі банк замяніў людзей на ШІ, а потым вярнуў і выбачыўся
Па тэме
Аўстралійскі банк замяніў людзей на ШІ, а потым вярнуў і выбачыўся
Чытайце таксама
Торвальдс сказаў «так» вайб-кодзінгу. Але не на праектах
Торвальдс сказаў «так» вайб-кодзінгу. Але не на праектах
Торвальдс сказаў «так» вайб-кодзінгу. Але не на праектах
Стартаперы назвалі ШІ-кампанію, якая праваліцца першай
Стартаперы назвалі ШІ-кампанію, якая праваліцца першай
Стартаперы назвалі ШІ-кампанію, якая праваліцца першай
Жах перад Калядамі: ШІ ўпрыгожыў Лондан да святаў, нагенерыў мутантаў
Жах перад Калядамі: ШІ ўпрыгожыў Лондан да святаў, нагенерыў мутантаў
Жах перад Калядамі: ШІ ўпрыгожыў Лондан да святаў, нагенерыў мутантаў
«Столькі цынікаў!»: кіраўнік Microsoft AI пасварыўся з карыстальнікамі з-за Windows
«Столькі цынікаў!»: кіраўнік Microsoft AI пасварыўся з карыстальнікамі з-за Windows
«Столькі цынікаў!»: кіраўнік Microsoft AI пасварыўся з карыстальнікамі з-за Windows
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.