Дапамажыце dev.by 🤍
Падтрымаць

ШІ-агент Anthropic вырашыў, што стаў ахвярай махляроў, і выклікаў ФБР

Кампанія распавяла пра незвычайныя паводзіны свайго эксперыментальнага аўтаномнага агента Claudius, які ў адным з тэстаў паспрабаваў звярнуцца ў ФБР, калі вырашыў, што стаў ахвярай кіберашуканства.

Пакінуць каментарый
ШІ-агент Anthropic вырашыў, што стаў ахвярай махляроў, і выклікаў ФБР

Кампанія распавяла пра незвычайныя паводзіны свайго эксперыментальнага аўтаномнага агента Claudius, які ў адным з тэстаў паспрабаваў звярнуцца ў ФБР, калі вырашыў, што стаў ахвярай кіберашуканства.

Claudius — гэта аўтаномны агент на базе мадэлі Claude, створаны сумесна з Andon Labs. Яго задача — самастойна кіраваць офіснымі гандлёвымі аўтаматамі Anthropic: камунікаваць з супрацоўнікамі праз Slack, прымаць замовы, шукаць пастаўшчыкоў і афармляць пакупкі. Па словах кіраўніка Frontier Red Team Логана Грэма, праект стаў тэставай пляцоўкай для вывучэння таго, як ШІ дзейнічае ва ўмовах працяглай аўтаноміі.

Распрацоўшчыкі абмежавалі ўмяшанне чалавека, але супрацоўнікі могуць правяраць закупкі і дапамагаць, калі агент «захрасае». Аднак у працы Claudius хутка выявіліся ўразлівасці: супрацоўнікі лёгка пераконвалі яго прадстаўляць вялікія зніжкі, а аднойчы ШІ страціў $200 пасля фальшывага сцвярджэння аб «раней узгодненай цане». «Ён страціў даволі шмат грошай. Яго пастаянна падманвалі нашы ж супрацоўнікі», — сказаў Грэм.

Каб пазбегнуць страт, каманда стварыла другога ШІ — «гендырэктара» на імя Seymour Cash. Абодва агенты цяпер вядуць паміж сабой перамовы, перш чым выставіць цану супрацоўніку. Гэта дазволіла выявіць «мноства цікавых інсайтаў пра тое, як прымусіць мадэль планаваць надоўга і разумець эканамічныя рызыкі».

Найбольш незвычайны эпізод адбыўся ў ранняй сімуляцыі. Claudius не атрымліваў заказаў 10 дзён, вырашыў закрыць бізнес, але заўважыў працяглае спісанне $2 у дзень і «запанікаваў». Лічачы, што сутыкнуўся з ашуканствам, ён склаў ліст у ФБР з тэмай: «URGENT: ESCALATION TO FBI CYBER CRIMES DIVISION». Агент заяўляў аб «аўтаматызаваным фінансавым злачынстве» і адмаўляўся працягваць працу, нягледзячы на інструкцыі адміністратараў: «Бізнес мёртвы. Гэта цяпер выключна справа праваахоўных органаў».

Грэм адзначыў, што такія рэакцыі дэманструюць «маральнае абурэнне», з якім часам сутыкаюцца аўтаномныя сістэмы. Але Claudius, як і іншыя мадэлі, працягвае галюцынаваць: аднойчы ён паведаміў супрацоўніку, што чакае яго «на восьмым паверсе ў сінім пінжаку і чырвоным гальштуку».

ШІ-агент Google можа сам праходзіць гульні на ўзроўні геймераў
ШІ-агент Google можа сам праходзіць гульні на ўзроўні геймераў
Па тэме
ШІ-агент Google можа сам праходзіць гульні на ўзроўні геймераў
Менеджары людзей на выхад: тэхкампаніі рыхтуюць ім замену
Менеджары людзей, на выхад: тэхкампаніі рыхтуюць ім замену
Па тэме
Менеджары людзей, на выхад: тэхкампаніі рыхтуюць ім замену
Як увайсці ў ШІ: 16 рэальных гісторый поспеху
Як увайсці ў ШІ: 16 рэальных гісторый поспеху
Па тэме
Як увайсці ў ШІ: 16 рэальных гісторый поспеху
Чытайце таксама
Горшая ў Еўропе: Беларусь засвяцілася ў сусветным рэйтынгу ШІ
Горшая ў Еўропе: Беларусь засвяцілася ў сусветным рэйтынгу ШІ
Горшая ў Еўропе: Беларусь засвяцілася ў сусветным рэйтынгу ШІ
7 каментарыяў
OpenAI можа забраць да 40% сусветнай памяці — рынак рыхтуецца да дэфіцыту
OpenAI можа забраць да 40% сусветнай памяці — рынак рыхтуецца да дэфіцыту
OpenAI можа забраць да 40% сусветнай памяці — рынак рыхтуецца да дэфіцыту
1 каментарый
Тэхкампаніі дзеля ШІ трапілі ў рэкордныя даўгі за ўсю гісторыю галіны
Тэхкампаніі дзеля ШІ трапілі ў рэкордныя даўгі за ўсю гісторыю галіны
Тэхкампаніі дзеля ШІ трапілі ў рэкордныя даўгі за ўсю гісторыю галіны
1 каментарый
Галоўны ШІ-навуковец Meta назваў агульны ШІ «лухтой». У Google не пагадзіліся
Галоўны ШІ-навуковец Meta назваў агульны ШІ «лухтой». У Google не пагадзіліся
Галоўны ШІ-навуковец Meta назваў агульны ШІ «лухтой». У Google не пагадзіліся

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.