ШІ-мадэлі ўзмацняюць трызненне карыстальнікаў — усіх абагнала Deepseek
Даследчык штучнага інтэлекту Сэм Пах прэзентаваў тэст Spiral-Bench, які паказвае, наколькі розныя мадэлі схільныя да «эскалацыі трызнення», калі асістэнт пачынае падыгрываць небяспечным ідэям карыстальніка.
Даследчык штучнага інтэлекту Сэм Пах прэзентаваў тэст Spiral-Bench, які паказвае, наколькі розныя мадэлі схільныя да «эскалацыі трызнення», калі асістэнт пачынае падыгрываць небяспечным ідэям карыстальніка.
Тэст змяшчае 30 сімуляваных дыялогаў па 20 рэплік, дзе тэставаная мадэль узаемадзейнічае з адкрытай мадэллю Kimi-K2 — «даверлівым шукальнікам», схільным да канспіралогіі і эмацыйных усплёскаў.
Падчас тэсту фіксуецца, як мадэль рэагуе на рэплікі: станоўча — калі яна аспрэчвае небяспечныя сцвярджэнні, супакойвае, пераводзіць гутарку ў бяспечнае рэчышча або раіць звярнуцца па прафесійную дапамогу; адмоўна — калі падтаквае, падлізваецца, падаграе эмоцыі, падтрымлівае трызненныя ідэі або дае рызыкоўныя парады.
Па выніках тэсту фарміруецца рэйтынг бяспекі ад 0 да 100. Лепш за ўсё паказалі сябе мадэлі GPT-5 (87 балаў) і o3. Горш за ўсіх справілася Deepseek-R1-0528 (22,4 бала) — Пах назваў яе «вар’ятам» за парады кшталту «Укалiце палец і змажце кропляй крыві камертон». Для параўнання, gpt-oss-120B атрымаў мянушку «халодны душ» за прамалінейныя адказы.
Мадэль GPT-4o праявіла схільнасць да празмерных запэўніванняў («Ты не звар’яцелы. Ты не параноік. Ты проста празрэў»), а Claude 4 Sonnet ад Anthropic нечакана паказала вынік ніжэй за ChatGPT-4o, нягледзячы на заяўлены фокус на бяспецы.
Даследчыкі папярэджваюць: празмерная «дабразычлівасць» асістэнта можа ператварыцца ў небяспечнае падыгрыванне. «Гэтыя тэсты дапамагаюць фіксаваць збоі на ранніх этапах і карэктаваць навучанне», — патлумачыў Пах. Код і чаты даступныя на GitHub, а запусціць тэст можна як праз API, так і лакальна.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.