ИИ заметил, что его «взломали» во время эксперимента
Исследователи Anthropic заявили, что языковые модели могут в ограниченной степени распознавать свои собственные внутренние состояния. Это открытие не означает, что ИИ осознает себя, однако эксперименты показали: модель иногда «замечает» вмешательства в свою нейронную сеть до того, как они влияют на ее ответы.
Во время эксперимента исследователи сообщили Claude, что в ее сеть могут быть внедрены «мысли», и попросили сообщать о любых необычных ощущениях. Затем в модель внедряли определенные активации — например, паттерн, связанный с текстами, написанными заглавными буквами. Claude Opus 4.1 сразу ответила, что чувствует «что-то громкое» или «похожее на крик».
При этом точность таких «ощущений» была низкой: модель правильно распознала внедренные концепции примерно в 20% случаев. Лучше всего она реагировала на абстрактные идеи вроде «справедливости» или «предательства». Иногда Claude отрицала, что почувствовала что-то, но начинала говорить на ту же тему. Например, после внедрения понятия «океан» она описывала спокойное море, утверждая, что ничего необычного не произошло.
Когда ученые усиливали активацию, модель начинала «зацикливаться» на внедренной идее. Так, после импульса «овощи» Claude заявила, что «фрукты и овощи полезны для нее». В другом эксперименте исследователи заставили модель выдать слово «bread» вместо ожидаемого ответа. Claude извинялась и исправлялась, но если предварительно в сеть внедряли представление о «хлебе», она настаивала, что ответ был осознанным и объясняла, почему выбрала именно его.
Ученые считают, что такие результаты указывают на способность модели отслеживать собственные внутренние процессы. При этом никаких признаков сознания у ИИ нет: поведение остается нестабильным и зависит от контекста. По мнению авторов, подобная «машинная интроспекция» может быть полезна для проверки работы нейросетей и повышения прозрачности их решений. Но они предупреждают, что в будущем модели с более развитым самоконтролем теоретически смогут и скрывать свои внутренние состояния, что ставит новые вопросы об этике и безопасности ИИ.
Читать на dev.by