Дапамажыце dev.by 🤍
Падтрымаць

ШІ-мадэлі ўзмацняюць трызненне карыстальнікаў — усіх абагнала Deepseek

Даследчык штучнага інтэлекту Сэм Пах прэзентаваў тэст Spiral-Bench, які паказвае, наколькі розныя мадэлі схільныя да «эскалацыі трызнення», калі асістэнт пачынае падыгрываць небяспечным ідэям карыстальніка.

Пакінуць каментарый
ШІ-мадэлі ўзмацняюць трызненне карыстальнікаў — усіх абагнала Deepseek

Даследчык штучнага інтэлекту Сэм Пах прэзентаваў тэст Spiral-Bench, які паказвае, наколькі розныя мадэлі схільныя да «эскалацыі трызнення», калі асістэнт пачынае падыгрываць небяспечным ідэям карыстальніка.

Тэст змяшчае 30 сімуляваных дыялогаў па 20 рэплік, дзе тэставаная мадэль узаемадзейнічае з адкрытай мадэллю Kimi-K2 — «даверлівым шукальнікам», схільным да канспіралогіі і эмацыйных усплёскаў.

Падчас тэсту фіксуецца, як мадэль рэагуе на рэплікі: станоўча — калі яна аспрэчвае небяспечныя сцвярджэнні, супакойвае, пераводзіць гутарку ў бяспечнае рэчышча або раіць звярнуцца па прафесійную дапамогу; адмоўна — калі падтаквае, падлізваецца, падаграе эмоцыі, падтрымлівае трызненныя ідэі або дае рызыкоўныя парады.

Па выніках тэсту фарміруецца рэйтынг бяспекі ад 0 да 100. Лепш за ўсё паказалі сябе мадэлі GPT-5 (87 балаў) і o3. Горш за ўсіх справілася Deepseek-R1-0528 (22,4 бала) — Пах назваў яе «вар’ятам» за парады кшталту «Укалiце палец і змажце кропляй крыві камертон». Для параўнання, gpt-oss-120B атрымаў мянушку «халодны душ» за прамалінейныя адказы.

Мадэль GPT-4o праявіла схільнасць да празмерных запэўніванняў («Ты не звар’яцелы. Ты не параноік. Ты проста празрэў»), а Claude 4 Sonnet ад Anthropic нечакана паказала вынік ніжэй за ChatGPT-4o, нягледзячы на заяўлены фокус на бяспецы.

Даследчыкі папярэджваюць: празмерная «дабразычлівасць» асістэнта можа ператварыцца ў небяспечнае падыгрыванне. «Гэтыя тэсты дапамагаюць фіксаваць збоі на ранніх этапах і карэктаваць навучанне», — патлумачыў Пах. Код і чаты даступныя на GitHub, а запусціць тэст можна як праз API, так і лакальна.

ИИ убеждает людей лавиной фактов но из-за этого чаще врёт
ИИ убеждает людей лавиной фактов, но из-за этого чаще врёт
Па тэме
ИИ убеждает людей лавиной фактов, но из-за этого чаще врёт
CEO Coinbase: я звальняю праграмістаў якія не выкарыстоўваюць ШІ
CEO Coinbase: я звальняю праграмістаў, якія не выкарыстоўваюць ШІ
Па тэме
CEO Coinbase: я звальняю праграмістаў, якія не выкарыстоўваюць ШІ
Аўстралійскі банк замяніў людзей на ШІ а потым вярнуў і выбачыўся
Аўстралійскі банк замяніў людзей на ШІ, а потым вярнуў і выбачыўся
Па тэме
Аўстралійскі банк замяніў людзей на ШІ, а потым вярнуў і выбачыўся
Чытайце таксама
«Перапрашыўка ўсяго бізнесу»: генеральны дырэктар Microsoft даў параду кіраўнікам на эпоху ШІ
«Перапрашыўка ўсяго бізнесу»: генеральны дырэктар Microsoft даў параду кіраўнікам на эпоху ШІ
«Перапрашыўка ўсяго бізнесу»: генеральны дырэктар Microsoft даў параду кіраўнікам на эпоху ШІ
Распрацоўка ПЗ перамагла ў спісе прафесій, якія найбольш зменіць генератыўны ШІ
Распрацоўка ПЗ перамагла ў спісе прафесій, якія найбольш зменіць генератыўны ШІ
Распрацоўка ПЗ перамагла ў спісе прафесій, якія найбольш зменіць генератыўны ШІ
1 каментарый
Беларусам будуць лячыць зубы з дапамогай ШІ
Беларусам будуць лячыць зубы з дапамогай ШІ
Беларусам будуць лячыць зубы з дапамогай ШІ
ШІ прымушае людзей думаць, што яны разумнейшыя, чым ёсць насамрэч
ШІ прымушае людзей думаць, што яны разумнейшыя, чым ёсць насамрэч
ШІ прымушае людзей думаць, што яны разумнейшыя, чым ёсць насамрэч

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.