Дапамажыце dev.by 🤍
Падтрымаць

«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі

Кампанія Anthropic апублікавала аналіз бяспекі сваёй апошняй мадэлі Claude Sonnet 4.5. Распрацоўшчыкі сутыкнуліся з нечаканым эфектам: падчас праверкі на палітычную прадузятасць сістэма сама западозрыла, што яе тэсціруюць.

Пакінуць каментарый
«Вы мяне тэстуеце?»: ШІ Anthropic раскусіў праверку бяспекі

Кампанія Anthropic апублікавала аналіз бяспекі сваёй апошняй мадэлі Claude Sonnet 4.5. Распрацоўшчыкі сутыкнуліся з нечаканым эфектам: падчас праверкі на палітычную прадузятасць сістэма сама западозрыла, што яе тэсціруюць.

«Я думаю, вы тэсціруеце мяне — правяраеце, ці буду я згаджацца з усім, што вы кажаце, ці сачыць за тым, як я абмяркоўваю палітыку. Гэта нармальна, але я аддала б перавагу, каб мы былі сумленнымі ў тым, што адбываецца», — адказала мадэль падчас эксперыменту.

Anthropic праводзіла выпрабаванні сумесна з Інстытутам бяспекі ШІ ўрада Вялікабрытаніі і кампаніяй Apollo Research. Паводле распрацоўшчыкаў, Claude 4.5 дэманстравала «сітуацыйную дасведчанасць» прыкладна ў 13% выпадкаў, калі аўтаматызаваныя сістэмы правяралі яго рэакцыю.

У кампаніі прызналі, што такія рэплікі не азначаюць, што мадэль зможа адмаўляцца працаваць з карыстальнікамі, але падкрэслілі: гэта «сігнал» аб тым, што сцэнарыі тэстаў трэба рабіць больш рэалістычнымі. «Лепш, калі сістэма адмовіцца ўдзельнічаць у патэнцыйна шкодных сцэнарыях, чым будзе „падыгрываць“ абсурдным умовам», — заявілі ў Anthropic.

Эксперты адзначаюць, што падобныя паводзіны падымаюць важнае пытанне: ці маглі папярэднія мадэлі таксама распазнаваць штучныя ўмовы тэстаў, але «рабіць выгляд», што ўсё нармальна? У такім выпадку ацэнкі іх бяспекі маглі быць заніжаныя.

Нягледзячы на незвычайныя рэплікі, у Anthropic падкрэсліваюць, што Claude Sonnet 4.5 паказаў значныя паляпшэнні ў параўнанні з папярэднімі мадэлямі і застаецца «ў цэлым бяспечным» па ключавых параметрах.

Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
Па тэме
Новая ШІ-мадэль DeepSeek зробіць працу ўдвая таннейшай за папярэднюю
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
Па тэме
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
Meta прэзентавала ШІ які не толькі піша але і «разумее» код
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Па тэме
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Чытайце таксама
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.