Black Friday x2 на devby: платите за одно размещение — получаете два. До 30.11
Support us

ИИ заметил, что его «взломали» во время эксперимента

Исследователи Anthropic заявили, что языковые модели могут в ограниченной степени распознавать свои собственные внутренние состояния. Это открытие не означает, что ИИ осознает себя, однако эксперименты показали: модель иногда «замечает» вмешательства в свою нейронную сеть до того, как они влияют на ее ответы.

Оставить комментарий
ИИ заметил, что его «взломали» во время эксперимента

Исследователи Anthropic заявили, что языковые модели могут в ограниченной степени распознавать свои собственные внутренние состояния. Это открытие не означает, что ИИ осознает себя, однако эксперименты показали: модель иногда «замечает» вмешательства в свою нейронную сеть до того, как они влияют на ее ответы.

Во время эксперимента исследователи сообщили Claude, что в ее сеть могут быть внедрены «мысли», и попросили сообщать о любых необычных ощущениях. Затем в модель внедряли определенные активации — например, паттерн, связанный с текстами, написанными заглавными буквами. Claude Opus 4.1 сразу ответила, что чувствует «что-то громкое» или «похожее на крик».

Иллюстрация эксперимента Anthropic: исследователи внедряют в нейросеть Claude «вектор заглавных букв» — искусственную мысль о громкости, которую модель затем самостоятельно распознаёт как «ощущение крика». Источник: Anthropic.

При этом точность таких «ощущений» была низкой: модель правильно распознала внедренные концепции примерно в 20% случаев. Лучше всего она реагировала на абстрактные идеи вроде «справедливости» или «предательства». Иногда Claude отрицала, что почувствовала что-то, но начинала говорить на ту же тему. Например, после внедрения понятия «океан» она описывала спокойное море, утверждая, что ничего необычного не произошло.

Исследователи «вживили» в модель понятие «хлеб» и заметили, что Claude стал оправдывать своё слово, считая его осознанным выбором, а не ошибкой. Источник: Anthropic.

Когда ученые усиливали активацию, модель начинала «зацикливаться» на внедренной идее. Так, после импульса «овощи» Claude заявила, что «фрукты и овощи полезны для нее». В другом эксперименте исследователи заставили модель выдать слово «bread» вместо ожидаемого ответа. Claude извинялась и исправлялась, но если предварительно в сеть внедряли представление о «хлебе», она настаивала, что ответ был осознанным и объясняла, почему выбрала именно его.

Claude Opus 4.1 удерживает внутреннее представление понятия «аквариум»: при инструкции «думай об аквариумах» модель активирует соответствующий вектор заметно сильнее, чем при команде «не думай», что свидетельствует о контролируемой внутренней концентрации внимания. Источник: Anthropic.

Ученые считают, что такие результаты указывают на способность модели отслеживать собственные внутренние процессы. При этом никаких признаков сознания у ИИ нет: поведение остается нестабильным и зависит от контекста. По мнению авторов, подобная «машинная интроспекция» может быть полезна для проверки работы нейросетей и повышения прозрачности их решений. Но они предупреждают, что в будущем модели с более развитым самоконтролем теоретически смогут и скрывать свои внутренние состояния, что ставит новые вопросы об этике и безопасности ИИ.

Создатель ИИ-бота для техсобесов назвал главную причину провалов стартапов
Создатель ИИ-бота для техсобесов назвал главную причину провалов стартапов
По теме
Создатель ИИ-бота для техсобесов назвал главную причину провалов стартапов
Новая ИИ-модель от Cursor ускоряет программирование в 4 раза
Новая ИИ-модель от Cursor ускоряет программирование в 4 раза
По теме
Новая ИИ-модель от Cursor ускоряет программирование в 4 раза
ИИ заставляет людей думать что они умнее чем есть на самом деле
ИИ заставляет людей думать, что они умнее, чем есть на самом деле
По теме
ИИ заставляет людей думать, что они умнее, чем есть на самом деле
Читайте также
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»
Китайское вайбкодинговое приложение взорвало интернет, упало, набрало миллион пользователей быстрее ChatGPT
Китайское вайбкодинговое приложение взорвало интернет, упало, набрало миллион пользователей быстрее ChatGPT
Китайское вайбкодинговое приложение взорвало интернет, упало, набрало миллион пользователей быстрее ChatGPT
Anthropic выпустила «лучшую модель для кодинга в мире»
Anthropic выпустила «лучшую модель для кодинга в мире»
Anthropic выпустила «лучшую модель для кодинга в мире»
Рынок не поверил Хуангу: акции техногигантов обвалились после финансового отчёта Nvidia
Рынок не поверил Хуангу: акции техногигантов обвалились после финансового отчёта Nvidia
Рынок не поверил Хуангу: акции техногигантов обвалились после финансового отчёта Nvidia
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.