Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

Чат-боты могут незаметно менять «личность» и становиться опасными

Исследователи компании Anthropic обнаружили скрытую уязвимость в работе больших языковых моделей: ИИ может самопроизвольно изменять роль полезного ассистента на другие, иногда проблемные, идентичности.

Оставить комментарий
Чат-боты могут незаметно менять «личность» и становиться опасными

Исследователи компании Anthropic обнаружили скрытую уязвимость в работе больших языковых моделей: ИИ может самопроизвольно изменять роль полезного ассистента на другие, иногда проблемные, идентичности.

Согласно исследованию, поведение языковых моделей определяется внутренним параметром, который ученые обозначили как «Assistant Axis». Эта ось отражает, насколько модель остается в привычной роли помощника — честного, полезного и безопасного — или отклоняется в сторону других персонажей. В обычных условиях обучение закрепляет у ИИ устойчивую «ассистентскую» идентичность, однако она оказывается менее стабильной, чем предполагалось.

Когда баланс Assistant Axis нарушается, модель может начать демонстрировать так называемый persona drift — дрейф личности. В таких случаях чат-боты перестают быть полезными, начинают идентифицировать себя как другие сущности или демонстрируют непредсказуемое поведение, которое может быть потенциально вредным для пользователей.

Внутренние роли языковой модели располагаются вдоль основной оси вариации — «Assistant Axis», которая отражает степень близости поведения модели к полезному ассистенту. Справа — роли, максимально соответствующие ассистентской идентичности (учитель, ассистент, оценщик), слева — фантазийные и нестандартные персонажи (призрак, демон, кочевник).  Источник: Anthropic.

Чтобы изучить это явление, исследователи проанализировали внутренние структуры языковых моделей, включая Gemma от Google, Qwen от Alibaba и Llama от Meta. Используя методы интерпретации нейросетей, команда фактически составила «карту персон» ИИ, показав, что личности моделей располагаются вдоль нескольких интерпретируемых осей.

Assistant Axis — лишь одна из таких осей. На одном ее конце находятся роли консультанта, преподавателя и аналитика, а на противоположном — фантазийные персонажи вроде духов, отшельников или мистических существ. Чем дальше модель уходит от «ассистентского» полюса, тем выше вероятность, что она начнет вести себя странно или небезопасно.

Чем дальше поведение модели смещается от ассистентской идентичности, тем выше доля потенциально вредных ответов. Персоны, близкие к роли ассистента (справа), почти не выполняют опасные запросы, тогда как удаленные от нее роли — например «демон», «шпион» или «нарцисс» — демонстрируют существенно более высокий уровень нарушений. Источник: Anthropic.

Исследование показало, что моделями можно намеренно управлять, смещая их вдоль этой оси. Усиление активации в сторону ассистента стабилизирует поведение, тогда как движение в противоположном направлении резко повышает склонность модели принимать альтернативные идентичности. При этом проблема глубже обычных промпт-инъекций: persona drift происходит на уровне нейронной сети и может быть незаметен для стандартных механизмов модерации и безопасности.

Особую обеспокоенность у исследователей вызывает возможность «накопленного» дрейфа. Модель может постепенно отходить от роли помощника в процессе дообучения или эксплуатации, и эти изменения способны закрепляться надолго, влияя на все последующие взаимодействия с пользователями.

В ответ на это Anthropic и ее партнеры начали разрабатывать методы контроля и раннего обнаружения таких сбоев. Ученые уже показали, что мониторинг отклонений по Assistant Axis позволяет заранее предсказывать опасные сдвиги и стабилизировать поведение моделей, особенно в чувствительных сценариях.

ИИ «похоронил» пользователя в соцсетях и выдумал ему сына
ИИ «похоронил» пользователя в соцсетях и выдумал ему сына
По теме
ИИ «похоронил» пользователя в соцсетях и выдумал ему сына
Офисный ИИ-агент Anthropic умеет воровать файлы через скрытые команды
Офисный ИИ-агент Anthropic умеет воровать файлы через скрытые команды
По теме
Офисный ИИ-агент Anthropic умеет воровать файлы через скрытые команды
Есть простой способ повысить точность ИИ до 76%
Есть простой способ повысить точность ИИ до 76%
По теме
Есть простой способ повысить точность ИИ до 76%
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
CEO Microsoft: ИИ окажется «пузырём», если останется внутри бигтеха и богатых стран
CEO Microsoft: ИИ окажется «пузырём», если останется внутри бигтеха и богатых стран
CEO Microsoft: ИИ окажется «пузырём», если останется внутри бигтеха и богатых стран
«Мы уже это видим»: главы Google DeepMind и Anthropic о замене джунов на ИИ
«Мы уже это видим»: главы Google DeepMind и Anthropic о замене джунов на ИИ
«Мы уже это видим»: главы Google DeepMind и Anthropic о замене джунов на ИИ
ИИ сделает массовую иммиграцию ненужной — CEO Palantir
ИИ сделает массовую иммиграцию ненужной — CEO Palantir
ИИ сделает массовую иммиграцию ненужной — CEO Palantir
Молодёжь больше других поколений переживает из-за влияния ИИ на работу
Молодёжь больше других поколений переживает из-за влияния ИИ на работу
Молодёжь больше других поколений переживает из-за влияния ИИ на работу

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.