ИИ заметил, что его «взломали» во время эксперимента
Исследователи Anthropic заявили, что языковые модели могут в ограниченной степени распознавать свои собственные внутренние состояния. Это открытие не означает, что ИИ осознает себя, однако эксперименты показали: модель иногда «замечает» вмешательства в свою нейронную сеть до того, как они влияют на ее ответы.
Исследователи Anthropic заявили, что языковые модели могут в ограниченной степени распознавать свои собственные внутренние состояния. Это открытие не означает, что ИИ осознает себя, однако эксперименты показали: модель иногда «замечает» вмешательства в свою нейронную сеть до того, как они влияют на ее ответы.
Во время эксперимента исследователи сообщили Claude, что в ее сеть могут быть внедрены «мысли», и попросили сообщать о любых необычных ощущениях. Затем в модель внедряли определенные активации — например, паттерн, связанный с текстами, написанными заглавными буквами. Claude Opus 4.1 сразу ответила, что чувствует «что-то громкое» или «похожее на крик».
Иллюстрация эксперимента Anthropic: исследователи внедряют в нейросеть Claude «вектор заглавных букв» — искусственную мысль о громкости, которую модель затем самостоятельно распознаёт как «ощущение крика». Источник: Anthropic.
При этом точность таких «ощущений» была низкой: модель правильно распознала внедренные концепции примерно в 20% случаев. Лучше всего она реагировала на абстрактные идеи вроде «справедливости» или «предательства». Иногда Claude отрицала, что почувствовала что-то, но начинала говорить на ту же тему. Например, после внедрения понятия «океан» она описывала спокойное море, утверждая, что ничего необычного не произошло.
Исследователи «вживили» в модель понятие «хлеб» и заметили, что Claude стал оправдывать своё слово, считая его осознанным выбором, а не ошибкой. Источник: Anthropic.
Когда ученые усиливали активацию, модель начинала «зацикливаться» на внедренной идее. Так, после импульса «овощи» Claude заявила, что «фрукты и овощи полезны для нее». В другом эксперименте исследователи заставили модель выдать слово «bread» вместо ожидаемого ответа. Claude извинялась и исправлялась, но если предварительно в сеть внедряли представление о «хлебе», она настаивала, что ответ был осознанным и объясняла, почему выбрала именно его.
Claude Opus 4.1 удерживает внутреннее представление понятия «аквариум»: при инструкции «думай об аквариумах» модель активирует соответствующий вектор заметно сильнее, чем при команде «не думай», что свидетельствует о контролируемой внутренней концентрации внимания. Источник: Anthropic.
Ученые считают, что такие результаты указывают на способность модели отслеживать собственные внутренние процессы. При этом никаких признаков сознания у ИИ нет: поведение остается нестабильным и зависит от контекста. По мнению авторов, подобная «машинная интроспекция» может быть полезна для проверки работы нейросетей и повышения прозрачности их решений. Но они предупреждают, что в будущем модели с более развитым самоконтролем теоретически смогут и скрывать свои внутренние состояния, что ставит новые вопросы об этике и безопасности ИИ.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.