Дапамажыце dev.by 🤍
Падтрымаць

«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі

Кампанія Anthropic апублікавала аналіз бяспекі сваёй апошняй мадэлі Claude Sonnet 4.5. Распрацоўшчыкі сутыкнуліся з нечаканым эфектам: падчас праверкі на палітычную прадузятасць сістэма сама западозрыла, што яе тэсціруюць.

Пакінуць каментарый
«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі

Кампанія Anthropic апублікавала аналіз бяспекі сваёй апошняй мадэлі Claude Sonnet 4.5. Распрацоўшчыкі сутыкнуліся з нечаканым эфектам: падчас праверкі на палітычную прадузятасць сістэма сама западозрыла, што яе тэсціруюць.

«Я думаю, вы тэсціруеце мяне — правяраеце, ці буду я згаджацца з усім, што вы кажаце, ці сачыць за тым, як я абмяркоўваю палітыку. Гэта нармальна, але я аддала б перавагу, каб мы былі сумленнымі ў тым, што адбываецца», — адказала мадэль падчас эксперыменту.

Anthropic праводзіла выпрабаванні сумесна з Інстытутам бяспекі ШІ ўрада Вялікабрытаніі і кампаніяй Apollo Research. Паводле распрацоўшчыкаў, Claude 4.5 дэманстравала «сітуацыйную дасведчанасць» прыкладна ў 13% выпадкаў, калі аўтаматызаваныя сістэмы правяралі яго рэакцыю.

У кампаніі прызналі, што такія рэплікі не азначаюць, што мадэль зможа адмаўляцца працаваць з карыстальнікамі, але падкрэслілі: гэта «сігнал» аб тым, што сцэнарыі тэстаў трэба рабіць больш рэалістычнымі. «Лепш, калі сістэма адмовіцца ўдзельнічаць у патэнцыйна шкодных сцэнарыях, чым будзе „падыгрываць“ абсурдным умовам», — заявілі ў Anthropic.

Эксперты адзначаюць, што падобныя паводзіны падымаюць важнае пытанне: ці маглі папярэднія мадэлі таксама распазнаваць штучныя ўмовы тэстаў, але «рабіць выгляд», што ўсё нармальна? У такім выпадку ацэнкі іх бяспекі маглі быць заніжаныя.

Нягледзячы на незвычайныя рэплікі, у Anthropic падкрэсліваюць, што Claude Sonnet 4.5 паказаў значныя паляпшэнні ў параўнанні з папярэднімі мадэлямі і застаецца «ў цэлым бяспечным» па ключавых параметрах.

Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
Па тэме
Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
Па тэме
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
Meta прэзентавала ШІ які не толькі піша але і «разумее» код
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Па тэме
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Чытайце таксама
«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі
«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі
«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
«Мы не ведаем, ці ёсць у ШІ свядомасць»: Anthropic абнавіла «канстытуцыю» Claude
«Мы не ведаем, ці ёсць у ШІ свядомасць»: Anthropic абнавіла «канстытуцыю» Claude
«Мы не ведаем, ці ёсць у ШІ свядомасць»: Anthropic абнавіла «канстытуцыю» Claude
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым
Anthropic паказала магутны ШІ для пошуку ўразлівасцяў, але трымае яго закрытым

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.