200 инженеров в Варшаве обсуждают дыры в пайплайнах. Без вас?
Support us

ИИ заметил, что его «взломали» во время эксперимента

Исследователи Anthropic заявили, что языковые модели могут в ограниченной степени распознавать свои собственные внутренние состояния. Это открытие не означает, что ИИ осознает себя, однако эксперименты показали: модель иногда «замечает» вмешательства в свою нейронную сеть до того, как они влияют на ее ответы.

Оставить комментарий
ИИ заметил, что его «взломали» во время эксперимента

Исследователи Anthropic заявили, что языковые модели могут в ограниченной степени распознавать свои собственные внутренние состояния. Это открытие не означает, что ИИ осознает себя, однако эксперименты показали: модель иногда «замечает» вмешательства в свою нейронную сеть до того, как они влияют на ее ответы.

Во время эксперимента исследователи сообщили Claude, что в ее сеть могут быть внедрены «мысли», и попросили сообщать о любых необычных ощущениях. Затем в модель внедряли определенные активации — например, паттерн, связанный с текстами, написанными заглавными буквами. Claude Opus 4.1 сразу ответила, что чувствует «что-то громкое» или «похожее на крик».

Иллюстрация эксперимента Anthropic: исследователи внедряют в нейросеть Claude «вектор заглавных букв» — искусственную мысль о громкости, которую модель затем самостоятельно распознаёт как «ощущение крика». Источник: Anthropic.

При этом точность таких «ощущений» была низкой: модель правильно распознала внедренные концепции примерно в 20% случаев. Лучше всего она реагировала на абстрактные идеи вроде «справедливости» или «предательства». Иногда Claude отрицала, что почувствовала что-то, но начинала говорить на ту же тему. Например, после внедрения понятия «океан» она описывала спокойное море, утверждая, что ничего необычного не произошло.

Исследователи «вживили» в модель понятие «хлеб» и заметили, что Claude стал оправдывать своё слово, считая его осознанным выбором, а не ошибкой. Источник: Anthropic.

Когда ученые усиливали активацию, модель начинала «зацикливаться» на внедренной идее. Так, после импульса «овощи» Claude заявила, что «фрукты и овощи полезны для нее». В другом эксперименте исследователи заставили модель выдать слово «bread» вместо ожидаемого ответа. Claude извинялась и исправлялась, но если предварительно в сеть внедряли представление о «хлебе», она настаивала, что ответ был осознанным и объясняла, почему выбрала именно его.

Claude Opus 4.1 удерживает внутреннее представление понятия «аквариум»: при инструкции «думай об аквариумах» модель активирует соответствующий вектор заметно сильнее, чем при команде «не думай», что свидетельствует о контролируемой внутренней концентрации внимания. Источник: Anthropic.

Ученые считают, что такие результаты указывают на способность модели отслеживать собственные внутренние процессы. При этом никаких признаков сознания у ИИ нет: поведение остается нестабильным и зависит от контекста. По мнению авторов, подобная «машинная интроспекция» может быть полезна для проверки работы нейросетей и повышения прозрачности их решений. Но они предупреждают, что в будущем модели с более развитым самоконтролем теоретически смогут и скрывать свои внутренние состояния, что ставит новые вопросы об этике и безопасности ИИ.

Создатель ИИ-бота для техсобесов назвал главную причину провалов стартапов
Создатель ИИ-бота для техсобесов назвал главную причину провалов стартапов
По теме
Создатель ИИ-бота для техсобесов назвал главную причину провалов стартапов
Новая ИИ-модель от Cursor ускоряет программирование в 4 раза
Новая ИИ-модель от Cursor ускоряет программирование в 4 раза
По теме
Новая ИИ-модель от Cursor ускоряет программирование в 4 раза
ИИ заставляет людей думать что они умнее чем есть на самом деле
ИИ заставляет людей думать, что они умнее, чем есть на самом деле
По теме
ИИ заставляет людей думать, что они умнее, чем есть на самом деле
Читайте также
CEO Airbnb: если не брать зумеров, руководить скоро будет некому
CEO Airbnb: если не брать зумеров, руководить скоро будет некому
CEO Airbnb: если не брать зумеров, руководить скоро будет некому
Meta обвинили в скачивании порно для ИИ. Компания заявила, что качала «для себя»
Meta обвинили в скачивании порно для ИИ. Компания заявила, что качала «для себя»
Meta обвинили в скачивании порно для ИИ. Компания заявила, что качала «для себя»
4 комментария
Создатель ИИ-бота для техсобесов назвал главную причину провалов стартапов
Создатель ИИ-бота для техсобесов назвал главную причину провалов стартапов
Создатель ИИ-бота для техсобесов назвал главную причину провалов стартапов
Новая ИИ-модель от Cursor ускоряет программирование в 4 раза
Новая ИИ-модель от Cursor ускоряет программирование в 4 раза
Новая ИИ-модель от Cursor ускоряет программирование в 4 раза

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.