Дапамажыце dev.by 🤍
Падтрымаць

«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі

Кампанія Anthropic апублікавала аналіз бяспекі сваёй апошняй мадэлі Claude Sonnet 4.5. Распрацоўшчыкі сутыкнуліся з нечаканым эфектам: падчас праверкі на палітычную прадузятасць сістэма сама западозрыла, што яе тэсціруюць.

Пакінуць каментарый
«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі

Кампанія Anthropic апублікавала аналіз бяспекі сваёй апошняй мадэлі Claude Sonnet 4.5. Распрацоўшчыкі сутыкнуліся з нечаканым эфектам: падчас праверкі на палітычную прадузятасць сістэма сама западозрыла, што яе тэсціруюць.

«Я думаю, вы тэсціруеце мяне — правяраеце, ці буду я згаджацца з усім, што вы кажаце, ці сачыць за тым, як я абмяркоўваю палітыку. Гэта нармальна, але я аддала б перавагу, каб мы былі сумленнымі ў тым, што адбываецца», — адказала мадэль падчас эксперыменту.

Anthropic праводзіла выпрабаванні сумесна з Інстытутам бяспекі ШІ ўрада Вялікабрытаніі і кампаніяй Apollo Research. Паводле распрацоўшчыкаў, Claude 4.5 дэманстравала «сітуацыйную дасведчанасць» прыкладна ў 13% выпадкаў, калі аўтаматызаваныя сістэмы правяралі яго рэакцыю.

У кампаніі прызналі, што такія рэплікі не азначаюць, што мадэль зможа адмаўляцца працаваць з карыстальнікамі, але падкрэслілі: гэта «сігнал» аб тым, што сцэнарыі тэстаў трэба рабіць больш рэалістычнымі. «Лепш, калі сістэма адмовіцца ўдзельнічаць у патэнцыйна шкодных сцэнарыях, чым будзе „падыгрываць“ абсурдным умовам», — заявілі ў Anthropic.

Эксперты адзначаюць, што падобныя паводзіны падымаюць важнае пытанне: ці маглі папярэднія мадэлі таксама распазнаваць штучныя ўмовы тэстаў, але «рабіць выгляд», што ўсё нармальна? У такім выпадку ацэнкі іх бяспекі маглі быць заніжаныя.

Нягледзячы на незвычайныя рэплікі, у Anthropic падкрэсліваюць, што Claude Sonnet 4.5 паказаў значныя паляпшэнні ў параўнанні з папярэднімі мадэлямі і застаецца «ў цэлым бяспечным» па ключавых параметрах.

Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
Па тэме
Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
Па тэме
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
Meta прэзентавала ШІ які не толькі піша але і «разумее» код
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Па тэме
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Чытайце таксама
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
Стваральнік OpenClaw не фанат агульнага ШІ. Кажа, будучыня за спецыялізаваным
Стваральнік OpenClaw не фанат агульнага ШІ. Кажа, будучыня за спецыялізаваным
Стваральнік OpenClaw не фанат агульнага ШІ. Кажа, будучыня за спецыялізаваным

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.