Дапамажыце dev.by 🤍
Падтрымаць

«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі

Кампанія Anthropic апублікавала аналіз бяспекі сваёй апошняй мадэлі Claude Sonnet 4.5. Распрацоўшчыкі сутыкнуліся з нечаканым эфектам: падчас праверкі на палітычную прадузятасць сістэма сама западозрыла, што яе тэсціруюць.

Пакінуць каментарый
«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі

Кампанія Anthropic апублікавала аналіз бяспекі сваёй апошняй мадэлі Claude Sonnet 4.5. Распрацоўшчыкі сутыкнуліся з нечаканым эфектам: падчас праверкі на палітычную прадузятасць сістэма сама западозрыла, што яе тэсціруюць.

«Я думаю, вы тэсціруеце мяне — правяраеце, ці буду я згаджацца з усім, што вы кажаце, ці сачыць за тым, як я абмяркоўваю палітыку. Гэта нармальна, але я аддала б перавагу, каб мы былі сумленнымі ў тым, што адбываецца», — адказала мадэль падчас эксперыменту.

Anthropic праводзіла выпрабаванні сумесна з Інстытутам бяспекі ШІ ўрада Вялікабрытаніі і кампаніяй Apollo Research. Паводле распрацоўшчыкаў, Claude 4.5 дэманстравала «сітуацыйную дасведчанасць» прыкладна ў 13% выпадкаў, калі аўтаматызаваныя сістэмы правяралі яго рэакцыю.

У кампаніі прызналі, што такія рэплікі не азначаюць, што мадэль зможа адмаўляцца працаваць з карыстальнікамі, але падкрэслілі: гэта «сігнал» аб тым, што сцэнарыі тэстаў трэба рабіць больш рэалістычнымі. «Лепш, калі сістэма адмовіцца ўдзельнічаць у патэнцыйна шкодных сцэнарыях, чым будзе „падыгрываць“ абсурдным умовам», — заявілі ў Anthropic.

Эксперты адзначаюць, што падобныя паводзіны падымаюць важнае пытанне: ці маглі папярэднія мадэлі таксама распазнаваць штучныя ўмовы тэстаў, але «рабіць выгляд», што ўсё нармальна? У такім выпадку ацэнкі іх бяспекі маглі быць заніжаныя.

Нягледзячы на незвычайныя рэплікі, у Anthropic падкрэсліваюць, што Claude Sonnet 4.5 паказаў значныя паляпшэнні ў параўнанні з папярэднімі мадэлямі і застаецца «ў цэлым бяспечным» па ключавых параметрах.

Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
Па тэме
Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
Па тэме
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
Meta прэзентавала ШІ які не толькі піша але і «разумее» код
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Па тэме
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Чытайце таксама
ШІ-браўзэр OpenAI можна лёгка падмануць з дапамогай схаваных промптаў
ШІ-браўзэр OpenAI можна лёгка падмануць з дапамогай схаваных промптаў
ШІ-браўзэр OpenAI можна лёгка падмануць з дапамогай схаваных промптаў
Нейрасеткі
Нейрасеткі "дурнеюць", калі харчуюцца смецевым кантэнтам — эфект незваротны
Нейрасеткі "дурнеюць", калі харчуюцца смецевым кантэнтам — эфект незваротны
1 каментарый
Сузаснавальнік LinkedIn назваў «сляпую зону» для інвестараў
Сузаснавальнік LinkedIn назваў «сляпую зону» для інвестараў
Сузаснавальнік LinkedIn назваў «сляпую зону» для інвестараў
Карыстальнікі ChatGPT скардзяцца на выпадкі «ШІ-псіхозу»
Карыстальнікі ChatGPT скардзяцца на выпадкі «ШІ-псіхозу»
Карыстальнікі ChatGPT скардзяцца на выпадкі «ШІ-псіхозу»

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.