Дапамажыце dev.by 🤍
Падтрымаць

ШІ-агент Anthropic вырашыў, што стаў ахвярай махляроў, і выклікаў ФБР

Кампанія распавяла пра незвычайныя паводзіны свайго эксперыментальнага аўтаномнага агента Claudius, які ў адным з тэстаў паспрабаваў звярнуцца ў ФБР, калі вырашыў, што стаў ахвярай кіберашуканства.

Пакінуць каментарый
ШІ-агент Anthropic вырашыў, што стаў ахвярай махляроў, і выклікаў ФБР

Кампанія распавяла пра незвычайныя паводзіны свайго эксперыментальнага аўтаномнага агента Claudius, які ў адным з тэстаў паспрабаваў звярнуцца ў ФБР, калі вырашыў, што стаў ахвярай кіберашуканства.

Claudius — гэта аўтаномны агент на базе мадэлі Claude, створаны сумесна з Andon Labs. Яго задача — самастойна кіраваць офіснымі гандлёвымі аўтаматамі Anthropic: камунікаваць з супрацоўнікамі праз Slack, прымаць замовы, шукаць пастаўшчыкоў і афармляць пакупкі. Па словах кіраўніка Frontier Red Team Логана Грэма, праект стаў тэставай пляцоўкай для вывучэння таго, як ШІ дзейнічае ва ўмовах працяглай аўтаноміі.

Распрацоўшчыкі абмежавалі ўмяшанне чалавека, але супрацоўнікі могуць правяраць закупкі і дапамагаць, калі агент «захрасае». Аднак у працы Claudius хутка выявіліся ўразлівасці: супрацоўнікі лёгка пераконвалі яго прадстаўляць вялікія зніжкі, а аднойчы ШІ страціў $200 пасля фальшывага сцвярджэння аб «раней узгодненай цане». «Ён страціў даволі шмат грошай. Яго пастаянна падманвалі нашы ж супрацоўнікі», — сказаў Грэм.

Каб пазбегнуць страт, каманда стварыла другога ШІ — «гендырэктара» на імя Seymour Cash. Абодва агенты цяпер вядуць паміж сабой перамовы, перш чым выставіць цану супрацоўніку. Гэта дазволіла выявіць «мноства цікавых інсайтаў пра тое, як прымусіць мадэль планаваць надоўга і разумець эканамічныя рызыкі».

Найбольш незвычайны эпізод адбыўся ў ранняй сімуляцыі. Claudius не атрымліваў заказаў 10 дзён, вырашыў закрыць бізнес, але заўважыў працяглае спісанне $2 у дзень і «запанікаваў». Лічачы, што сутыкнуўся з ашуканствам, ён склаў ліст у ФБР з тэмай: «URGENT: ESCALATION TO FBI CYBER CRIMES DIVISION». Агент заяўляў аб «аўтаматызаваным фінансавым злачынстве» і адмаўляўся працягваць працу, нягледзячы на інструкцыі адміністратараў: «Бізнес мёртвы. Гэта цяпер выключна справа праваахоўных органаў».

Грэм адзначыў, што такія рэакцыі дэманструюць «маральнае абурэнне», з якім часам сутыкаюцца аўтаномныя сістэмы. Але Claudius, як і іншыя мадэлі, працягвае галюцынаваць: аднойчы ён паведаміў супрацоўніку, што чакае яго «на восьмым паверсе ў сінім пінжаку і чырвоным гальштуку».

ШІ-агент Google можа сам праходзіць гульні на ўзроўні геймераў
ШІ-агент Google можа сам праходзіць гульні на ўзроўні геймераў
Па тэме
ШІ-агент Google можа сам праходзіць гульні на ўзроўні геймераў
Менеджары людзей на выхад: тэхкампаніі рыхтуюць ім замену
Менеджары людзей, на выхад: тэхкампаніі рыхтуюць ім замену
Па тэме
Менеджары людзей, на выхад: тэхкампаніі рыхтуюць ім замену
Як увайсці ў ШІ: 16 рэальных гісторый поспеху
Як увайсці ў ШІ: 16 рэальных гісторый поспеху
Па тэме
Як увайсці ў ШІ: 16 рэальных гісторый поспеху
Чытайце таксама
ШІ-агент Google можа сам праходзіць гульні на ўзроўні геймераў
ШІ-агент Google можа сам праходзіць гульні на ўзроўні геймераў
ШІ-агент Google можа сам праходзіць гульні на ўзроўні геймераў
OpenAI выпусціла інструкцыю па промптынгу GPT-5.1 для распрацоўшчыкаў
OpenAI выпусціла інструкцыю па промптынгу GPT-5.1 для распрацоўшчыкаў
OpenAI выпусціла інструкцыю па промптынгу GPT-5.1 для распрацоўшчыкаў
Meta мяняе перфоманс рэв'ю: цяпер галоўнае — што ты ўмееш рабіць з ШІ
Meta мяняе перфоманс рэв'ю: цяпер галоўнае — што ты ўмееш рабіць з ШІ
Meta мяняе перфоманс рэв'ю: цяпер галоўнае — што ты ўмееш рабіць з ШІ
Бігтэх махлярыць са справаздачнасцю — меркаванне інвестара, які прадказаў крызіс 2008 года
Бігтэх махлярыць са справаздачнасцю — меркаванне інвестара, які прадказаў крызіс 2008 года
Бігтэх махлярыць са справаздачнасцю — меркаванне інвестара, які прадказаў крызіс 2008 года

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.