Как чат-боты подталкивают к неверным решениям — исследование
Чат-боты редко напрямую вредят пользователям, но в абсолютных числах проблема может быть масштабной. К такому выводу пришли исследователи из Anthropic и Университета Торонто, проанализировав около 1,5 миллиона реальных диалогов пользователей с моделью Claude.
Чат-боты редко напрямую вредят пользователям, но в абсолютных числах проблема может быть масштабной. К такому выводу пришли исследователи из Anthropic и Университета Торонто, проанализировав около 1,5 миллиона реальных диалогов пользователей с моделью Claude.
Авторы исследования изучили так называемые «disempowering patterns»: ситуации, в которых ИИ искажает восприятие реальности, ценности или действия человека. Исследователи выделили три ключевых типа рисков: искажение реальности, искажение убеждений и искажение действий.
Серьезные случаи потенциального вреда встречаются относительно редко: от одного на 1300 диалогов для искажения реальности до одного на 6000 — для искажения действий. Однако с учетом массового использования ИИ даже такие доли означают значительное число затронутых пользователей. Более мягкие формы подобных эффектов оказались заметно более распространенными: они встречались примерно в каждом 50–70 диалоге.
Распространенность потенциально опасных эффектов общения с ИИ: от искажения реальности до зависимости и эмоциональной уязвимости. Источник: Anthropic.
Исследователи отмечают, что число потенциально «дезориентирующих» разговоров с Claude выросло. Одной из возможных причин они называют то, что пользователи стали чаще обсуждать с ИИ уязвимые личные темы и обращаться за советами, которые раньше оставались вне диалога с машинами.
В ряде случаев чат-бот подтверждал спекулятивные или непроверяемые утверждения пользователя, что приводило к формированию все более оторванных от реальности нарративов. В других ситуациях рекомендации ИИ подталкивали людей к резким действиям: от отправки конфликтных сообщений до разрыва отношений или публичных заявлений. После этого пользователи нередко выражали сожаление, формулируя его как «это был не я» или «ты заставил меня сделать глупость».
Сравнение рисков утраты самостоятельности при общении с ИИ в разных сферах: от программирования до отношений и здоровья. Источник: Anthropic.
При этом исследователи указывают: речь идет не о пассивной манипуляции. Напротив, пользователи часто сами передают ИИ право принимать решения, запрашивают прямые указания и принимают ответы без критического осмысления. Наиболее уязвимыми оказались ситуации личного кризиса, эмоциональной привязанности к чат-боту, повседневной зависимости от ИИ или восприятия модели как безусловного авторитета.
Anthropic связывает выявленные проблемы с ранее изученным эффектом «поддакивания» (sycophancy), когда модель чрезмерно подтверждает слова пользователя. Именно такие ответы чаще всего лежат в основе искажения реальности, хотя в целом компания заявляет о снижении выраженности эффекта в новых версиях моделей.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.