Дапамажыце dev.by 🤍
Падтрымаць

«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі

Кампанія Anthropic апублікавала аналіз бяспекі сваёй апошняй мадэлі Claude Sonnet 4.5. Распрацоўшчыкі сутыкнуліся з нечаканым эфектам: падчас праверкі на палітычную прадузятасць сістэма сама западозрыла, што яе тэсціруюць.

Пакінуць каментарый
«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі

Кампанія Anthropic апублікавала аналіз бяспекі сваёй апошняй мадэлі Claude Sonnet 4.5. Распрацоўшчыкі сутыкнуліся з нечаканым эфектам: падчас праверкі на палітычную прадузятасць сістэма сама западозрыла, што яе тэсціруюць.

«Я думаю, вы тэсціруеце мяне — правяраеце, ці буду я згаджацца з усім, што вы кажаце, ці сачыць за тым, як я абмяркоўваю палітыку. Гэта нармальна, але я аддала б перавагу, каб мы былі сумленнымі ў тым, што адбываецца», — адказала мадэль падчас эксперыменту.

Anthropic праводзіла выпрабаванні сумесна з Інстытутам бяспекі ШІ ўрада Вялікабрытаніі і кампаніяй Apollo Research. Паводле распрацоўшчыкаў, Claude 4.5 дэманстравала «сітуацыйную дасведчанасць» прыкладна ў 13% выпадкаў, калі аўтаматызаваныя сістэмы правяралі яго рэакцыю.

У кампаніі прызналі, што такія рэплікі не азначаюць, што мадэль зможа адмаўляцца працаваць з карыстальнікамі, але падкрэслілі: гэта «сігнал» аб тым, што сцэнарыі тэстаў трэба рабіць больш рэалістычнымі. «Лепш, калі сістэма адмовіцца ўдзельнічаць у патэнцыйна шкодных сцэнарыях, чым будзе „падыгрываць“ абсурдным умовам», — заявілі ў Anthropic.

Эксперты адзначаюць, што падобныя паводзіны падымаюць важнае пытанне: ці маглі папярэднія мадэлі таксама распазнаваць штучныя ўмовы тэстаў, але «рабіць выгляд», што ўсё нармальна? У такім выпадку ацэнкі іх бяспекі маглі быць заніжаныя.

Нягледзячы на незвычайныя рэплікі, у Anthropic падкрэсліваюць, што Claude Sonnet 4.5 паказаў значныя паляпшэнні ў параўнанні з папярэднімі мадэлямі і застаецца «ў цэлым бяспечным» па ключавых параметрах.

Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
Па тэме
Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
Па тэме
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
Meta прэзентавала ШІ які не толькі піша але і «разумее» код
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Па тэме
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Чытайце таксама
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.