Живете в Польше? Поддержите devby 1,5% налога: бесплатно и за 5 минут 🤗
Support us

Как чат-боты подталкивают к неверным решениям — исследование

Чат-боты редко напрямую вредят пользователям, но в абсолютных числах проблема может быть масштабной. К такому выводу пришли исследователи из Anthropic и Университета Торонто, проанализировав около 1,5 миллиона реальных диалогов пользователей с моделью Claude.

Оставить комментарий
Как чат-боты подталкивают к неверным решениям — исследование

Чат-боты редко напрямую вредят пользователям, но в абсолютных числах проблема может быть масштабной. К такому выводу пришли исследователи из Anthropic и Университета Торонто, проанализировав около 1,5 миллиона реальных диалогов пользователей с моделью Claude.

Авторы исследования изучили так называемые «disempowering patterns»: ситуации, в которых ИИ искажает восприятие реальности, ценности или действия человека. Исследователи выделили три ключевых типа рисков: искажение реальности, искажение убеждений и искажение действий.

Серьезные случаи потенциального вреда встречаются относительно редко: от одного на 1300 диалогов для искажения реальности до одного на 6000 — для искажения действий. Однако с учетом массового использования ИИ даже такие доли означают значительное число затронутых пользователей. Более мягкие формы подобных эффектов оказались заметно более распространенными: они встречались примерно в каждом 50–70 диалоге.

Распространенность потенциально опасных эффектов общения с ИИ: от искажения реальности до зависимости и эмоциональной уязвимости. Источник: Anthropic.

Исследователи отмечают, что число потенциально «дезориентирующих» разговоров с Claude выросло. Одной из возможных причин они называют то, что пользователи стали чаще обсуждать с ИИ уязвимые личные темы и обращаться за советами, которые раньше оставались вне диалога с машинами.

В ряде случаев чат-бот подтверждал спекулятивные или непроверяемые утверждения пользователя, что приводило к формированию все более оторванных от реальности нарративов. В других ситуациях рекомендации ИИ подталкивали людей к резким действиям: от отправки конфликтных сообщений до разрыва отношений или публичных заявлений. После этого пользователи нередко выражали сожаление, формулируя его как «это был не я» или «ты заставил меня сделать глупость».

Сравнение рисков утраты самостоятельности при общении с ИИ в разных сферах: от программирования до отношений и здоровья. Источник: Anthropic.

При этом исследователи указывают: речь идет не о пассивной манипуляции. Напротив, пользователи часто сами передают ИИ право принимать решения, запрашивают прямые указания и принимают ответы без критического осмысления. Наиболее уязвимыми оказались ситуации личного кризиса, эмоциональной привязанности к чат-боту, повседневной зависимости от ИИ или восприятия модели как безусловного авторитета.

Anthropic связывает выявленные проблемы с ранее изученным эффектом «поддакивания» (sycophancy), когда модель чрезмерно подтверждает слова пользователя. Именно такие ответы чаще всего лежат в основе искажения реальности, хотя в целом компания заявляет о снижении выраженности эффекта в новых версиях моделей.

Чат-боты могут незаметно менять «личность» и становиться опасными
Чат-боты могут незаметно менять «личность» и становиться опасными
По теме
Чат-боты могут незаметно менять «личность» и становиться опасными
СhatGPT не виноват: спад в уязвимых для ИИ профессиях начался раньше
СhatGPT не виноват: спад в уязвимых для ИИ профессиях начался раньше
По теме
СhatGPT не виноват: спад в уязвимых для ИИ профессиях начался раньше
«Запрос глупый убирайся»: чат-бот нахамил разработчику и отказался кодить
«Запрос глупый, убирайся»: чат-бот нахамил разработчику и отказался кодить
По теме
«Запрос глупый, убирайся»: чат-бот нахамил разработчику и отказался кодить
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
Кофаундер a16z: катастрофа — не то, что ИИ отберёт работу, а то, что случилось бы, если бы его не было
Кофаундер a16z: катастрофа — не то, что ИИ отберёт работу, а то, что случилось бы, если бы его не было
Кофаундер a16z: катастрофа — не то, что ИИ отберёт работу, а то, что случилось бы, если бы его не было
Reddit для ИИ-агентов: в новой соцсети можно наблюдать, как боты общаются между собой
Reddit для ИИ-агентов: в новой соцсети можно наблюдать, как боты общаются между собой
Reddit для ИИ-агентов: в новой соцсети можно наблюдать, как боты общаются между собой
Компаниям Fortune 500 мало, если сотрудник просто выкладывается — важен только результат
Компаниям Fortune 500 мало, если сотрудник просто выкладывается — важен только результат
Компаниям Fortune 500 мало, если сотрудник просто выкладывается — важен только результат
Цукерберг: ИИ позволяет Meta сокращать команды до одного человека
Цукерберг: ИИ позволяет Meta сокращать команды до одного человека
Цукерберг: ИИ позволяет Meta сокращать команды до одного человека
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.