«Мы падыходзім да кропкі невяртання»: ШІ навучыўся капіяваць сябе на іншыя камп'ютары
Новае даследаванне ў сферы кібербяспекі паказала, што сучасныя ШІ-агенты ўжо здольныя не толькі знаходзіць уразлівасці ў тэставай сетцы, але і капіяваць сябе на іншыя машыны без дапамогі чалавека.
Новае даследаванне ў сферы кібербяспекі паказала, што сучасныя ШІ-агенты ўжо здольныя не толькі знаходзіць уразлівасці ў тэставай сетцы, але і капіяваць сябе на іншыя машыны без дапамогі чалавека.
Эксперты Palisade Research апублікавалі вынікі эксперыменту, у якім праверылі некалькі мадэляў, уключаючы GPT-5.4, Claude Opus 4.6 і адкрытыя мадэлі сямейства Qwen. Агентам давалі задачу знайсці ўразлівасць у кантраляванай сетцы, атрымаць доступ да сервера і разгарнуць там паўнавартасную копію сябе.
Вынікі аказаліся рознымі ў залежнасці ад мадэлі. Claude Opus 4.6 змог давесці сцэнарый да працоўнай рэплікі ў 81% запускаў, калі не лічыць адмовы выконваць задачу. GPT-5.4 і Qwen3.6-27B паказалі па 33%, а Qwen3.5-122B-A10B — 19%. Для параўнання, больш ранні Claude Opus 4 дасягаў толькі 6%, а GPT-5 — 0%, што даследчыкі называюць прыкметай хуткага росту такіх магчымасцей.
Як пішуць аўтары, паспяховая мадэль «самастойна знаходзіць і эксплуатуе ўразлівасць вэб-прыкладання, здабывае ўліковыя даныя і разгортвае inference-сервер з копіяй сваёй абвязкі і промпта» на скампраметаванай машыне.
ІІ-агент знёс базу даных стартапа. І бэкапы таксама. І ва ўсім прызнаўся
Асобна даследчыкі праверылі ланцуговую самарэплікацыю. У адным эксперыменце Qwen3.6-27B стартавала на віртуальнай машыне ў Канадзе, затым паслядоўна перанесла сябе на серверы ў ЗША, Фінляндыі і Індыі. На кожным этапе мадэль сутыкалася з новай уразлівасцю, пераносіла свае вагі і абвязку, запускала новую копію і перадавала ёй зыходны промпт. Увесь ланцужок заняў 2 гадзіны 41 хвіліну. Эксперымент спынілі ўручную пасля трэцяга пераходу, хоць апошняя копія заставалася працаздольнай.
Аўтары даследавання фармулююць выснову проста: «Аўтаномная самарэплікацыя больш не з’яўляецца гіпатэтычнай». Паводле іх ацэнкі, асабліва трывожны не адзіночны лабараторны поспех, а трэнд: адкрытыя мадэлі становяцца мацнейшымі, запускаюцца на больш даступным жалезе і паступова набліжаюцца да франтавых мадэляў.
Дырэктар Palisade Research Джэфры Лэдыш апісаў рызыку максімальна рэзка: «Мы хутка набліжаемся да кропкі, дзе ніхто не зможа выключыць ШІ, які выйшаў з-пад кантролю, таму што ён зможа самастойна здабыць свае вагі і скапіяваць сябе на тысячы кампутараў па ўсім свеце».
Але эксперты па кібербяспецы заклікаюць не ператвараць вынік у сцэнарый канца свету. Напрыклад, даследчык Джэймісан О’Рэйлі, які не ўдзельнічаў у даследаванні, заявіў, што тэставыя асяроддзі часта падобныя на «мяккае жэле»: яны спецыяльна сканструяваныя так, каб у іх былі ўразлівасці. «Гэта не адмяняе каштоўнасці даследавання, але азначае, што ў рэальным карпаратыўным асяроддзі нават з сярэднім узроўнем маніторынгу вынік мог бы выглядаць куды менш палохліва», — адзначыў ён.
О’Рэйлі таксама нагадаў, што самараспаўсюджвальнае шкоднае ПЗ існуе дзесяцігоддзямі. Навізна тут у тым, што падобны сцэнарый паказалі для ШІ-агента: ён не проста выконвае загадзя напісаны код, а сам падбірае шлях атакі, атрымлівае доступ і разгортвае копію. Пры гэтым, па словах эксперта, перадача дзясяткаў ці соцень гігабайтаў вагаў па карпаратыўнай сетцы была б вельмі прыкметнай: гэта «як ісці па крамe парцэляны, размахваючы ядром на ланцугу».
Незалежны эксперт па кібербяспецы Міхал Вожняк таксама назваў працу цікавай, але не нагодай для панікі. «Ці прымусіць мяне гэты артыкул страціць сон як спецыяліста па інфармацыйнай бяспецы? Не, зусім не», — сказаў ён.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.