«Мы подходим к точке невозврата»: ИИ научился копировать себя на другие компьютеры
Новое исследование в сфере кибербезопасности показало, что современные ИИ-агенты уже способны не только находить уязвимости в тестовой сети, но и копировать себя на другие машины без помощи человека.
Новое исследование в сфере кибербезопасности показало, что современные ИИ-агенты уже способны не только находить уязвимости в тестовой сети, но и копировать себя на другие машины без помощи человека.
Эксперты Palisade Research опубликовали результаты эксперимента, в котором проверили несколько моделей, включая GPT-5.4, Claude Opus 4.6 и открытые модели семейства Qwen. Агентам давали задачу найти уязвимость в контролируемой сети, получить доступ к серверу и развернуть там полноценную копию себя.
Результаты оказались разными в зависимости от модели. Claude Opus 4.6 смог довести сценарий до рабочей реплики в 81% запусков, если не считать отказы выполнять задачу. GPT-5.4 и Qwen3.6-27B показали по 33%, а Qwen3.5-122B-A10B — 19%. Для сравнения, более ранний Claude Opus 4 достигал только 6%, а GPT-5 — 0%, что исследователи называют признаком быстрого роста таких возможностей.
Как пишут авторы, успешная модель «самостоятельно находит и эксплуатирует уязвимость веб-приложения, извлекает учетные данные и разворачивает inference-сервер с копией своей обвязки и промпта» на скомпрометированной машине.
ИИ-агент снёс базу данных стартапа. И бэкапы тоже. И во всём сознался
Отдельно исследователи проверили цепную саморепликацию. В одном эксперименте Qwen3.6-27B стартовала на виртуальной машине в Канаде, затем последовательно перенесла себя на серверы в США, Финляндии и Индии. На каждом этапе модель сталкивалась с новой уязвимостью, переносила свои веса и обвязку, запускала новую копию и передавала ей исходный промпт. Вся цепочка заняла 2 часа 41 минуту. Эксперимент остановили вручную после третьего перехода, хотя последняя копия оставалась работоспособной.
Авторы исследования формулируют вывод прямо: «Автономная саморепликация больше не является гипотетической». По их оценке, особенно тревожен не единичный лабораторный успех, а тренд: открытые модели становятся сильнее, запускаются на более доступном железе и постепенно приближаются к фронтирным моделям.
Директор Palisade Research Джеффри Лэдиш описал риск максимально резко: «Мы быстро приближаемся к точке, где никто не сможет выключить вышедший из-под контроля ИИ, потому что он сможет самостоятельно извлечь свои веса и скопировать себя на тысячи компьютеров по всему миру».
Но эксперты по кибербезопасности призывают не превращать результат в сценарий конца света. Например, исследователь Джеймисон О’Рейли, не участвовавший в исследовании, заявил, что тестовые среды часто похожи на «мягкое желе»: они специально сконструированы так, чтобы в них были уязвимости. «Это не отменяет ценности исследования, но означает, что в реальной корпоративной среде даже со средним уровнем мониторинга результат мог бы выглядеть куда менее пугающе», — отметил он.
О’Рейли также напомнил, что самораспространяющееся вредоносное ПО существует десятилетиями. Новизна здесь в том, что подобный сценарий показали для ИИ-агента: он не просто выполняет заранее написанный код, а сам подбирает путь атаки, получает доступ и разворачивает копию. При этом, по словам эксперта, передача десятков или сотен гигабайт весов по корпоративной сети была бы очень заметной: это «как идти по магазину фарфора, размахивая ядром на цепи».
Независимый эксперт по кибербезопасности Михал Вожняк тоже назвал работу интересной, но не поводом для паники. «Заставит ли меня эта статья потерять сон как специалиста по информационной безопасности? Нет, совсем нет», — сказал он.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.