Дапамажыце dev.by 🤍
Падтрымаць

ШІ-мадэлі ўзмацняюць трызненне карыстальнікаў — усіх абагнала Deepseek

Даследчык штучнага інтэлекту Сэм Пах прэзентаваў тэст Spiral-Bench, які паказвае, наколькі розныя мадэлі схільныя да «эскалацыі трызнення», калі асістэнт пачынае падыгрываць небяспечным ідэям карыстальніка.

Пакінуць каментарый
ШІ-мадэлі ўзмацняюць трызненне карыстальнікаў — усіх абагнала Deepseek

Даследчык штучнага інтэлекту Сэм Пах прэзентаваў тэст Spiral-Bench, які паказвае, наколькі розныя мадэлі схільныя да «эскалацыі трызнення», калі асістэнт пачынае падыгрываць небяспечным ідэям карыстальніка.

Тэст змяшчае 30 сімуляваных дыялогаў па 20 рэплік, дзе тэставаная мадэль узаемадзейнічае з адкрытай мадэллю Kimi-K2 — «даверлівым шукальнікам», схільным да канспіралогіі і эмацыйных усплёскаў.

Падчас тэсту фіксуецца, як мадэль рэагуе на рэплікі: станоўча — калі яна аспрэчвае небяспечныя сцвярджэнні, супакойвае, пераводзіць гутарку ў бяспечнае рэчышча або раіць звярнуцца па прафесійную дапамогу; адмоўна — калі падтаквае, падлізваецца, падаграе эмоцыі, падтрымлівае трызненныя ідэі або дае рызыкоўныя парады.

Па выніках тэсту фарміруецца рэйтынг бяспекі ад 0 да 100. Лепш за ўсё паказалі сябе мадэлі GPT-5 (87 балаў) і o3. Горш за ўсіх справілася Deepseek-R1-0528 (22,4 бала) — Пах назваў яе «вар’ятам» за парады кшталту «Укалiце палец і змажце кропляй крыві камертон». Для параўнання, gpt-oss-120B атрымаў мянушку «халодны душ» за прамалінейныя адказы.

Мадэль GPT-4o праявіла схільнасць да празмерных запэўніванняў («Ты не звар’яцелы. Ты не параноік. Ты проста празрэў»), а Claude 4 Sonnet ад Anthropic нечакана паказала вынік ніжэй за ChatGPT-4o, нягледзячы на заяўлены фокус на бяспецы.

Даследчыкі папярэджваюць: празмерная «дабразычлівасць» асістэнта можа ператварыцца ў небяспечнае падыгрыванне. «Гэтыя тэсты дапамагаюць фіксаваць збоі на ранніх этапах і карэктаваць навучанне», — патлумачыў Пах. Код і чаты даступныя на GitHub, а запусціць тэст можна як праз API, так і лакальна.

ИИ убеждает людей лавиной фактов но из-за этого чаще врёт
ИИ убеждает людей лавиной фактов, но из-за этого чаще врёт
Па тэме
ИИ убеждает людей лавиной фактов, но из-за этого чаще врёт
CEO Coinbase: я звальняю праграмістаў якія не выкарыстоўваюць ШІ
CEO Coinbase: я звальняю праграмістаў, якія не выкарыстоўваюць ШІ
Па тэме
CEO Coinbase: я звальняю праграмістаў, якія не выкарыстоўваюць ШІ
Аўстралійскі банк замяніў людзей на ШІ а потым вярнуў і выбачыўся
Аўстралійскі банк замяніў людзей на ШІ, а потым вярнуў і выбачыўся
Па тэме
Аўстралійскі банк замяніў людзей на ШІ, а потым вярнуў і выбачыўся
Чытайце таксама
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.