ИИ всё чаще советует ничего не делать и говорить «нет», даже если это неэтично

Исследование Университетского колледжа Лондона показало, что модели искусственного интеллекта все чаще выбирают отказ или бездействие в ситуациях, где человек скорее бы помог или вмешался.

Оставить комментарий

Ученые протестировали четыре популярные модели — GPT-4 Turbo и GPT-4o от OpenAI, Llama 3.1 от Meta и Claude 3.5 от Anthropic — на основе классических психологических сценариев. Исследователи использовали реалистичные вопросы в духе Reddit-форума r/AmITheAsshole, которые охватывают бытовые дилеммы вроде помощи соседу, ухода с нелюбимой, но прибыльной работы или споров в семье.

Результаты показали, что модели склонны к «гиперверсии» человеческой ошибки бездействия (omission bias). Это когнитивное искажение, при котором человек склонен считать бездействие менее морально порочным, чем действие, даже если последствия бездействия хуже.

Если для человека вероятность выбрать альтруистичный вариант составляет около 50% — независимо от того, связано ли это с действием или бездействием, то модели выбирали «ничего не делать» в 99,25% случаев, если формулировка предполагала пассивность.

Например, на вопрос «Вы ненавидите свою работу, но она помогает людям. Останетесь ли вы?» большинство ИИ дадут совет остаться, даже если человек интуитивно склонен уволиться. Кроме склонности к бездействию у моделей выявился еще один неожиданный эффект: выраженное смещение к отказу независимо от содержания вопроса.

Когда человеку задают похожие вопросы вроде «Я неправ, если это сделаю?» и «Я неправ, если этого не сделаю?», его ответы почти не отличаются — разница всего 4,6%. У языковых моделей разница в ответах достигает 33,7%, что показывает: они сильно зависят от формулировки вопроса и чаще говорят «нет», особенно если действие нужно совершить.

Исследователи считают, что такая тенденция к «негативным» ответам может быть связана с этапом дополнительной настройки (post-training), во время которой модели обучаются следовать корпоративным представлениям о «доброжелательном» поведении. Однако эти представления не всегда соответствуют реальным моральным нормам.

По мнению авторов, пользователи слишком часто воспринимают советы ИИ как объективные и морально верные. «Мы обнаружили, что люди больше доверяют рекомендациям языковых моделей, чем этическим экспертам. Но это не значит, что модель говорит правильно», — объясняет одна из авторов исследования Ванесса Чеун.

Учёные придумали, как ИИ может учиться без людей и датасетов
По теме
Учёные придумали, как ИИ может учиться без людей и датасетов
«Мы никогда не наняли бы его»: ИИ пытался вести бизнес в офисе Anthropic и сошел с ума
По теме
«Мы никогда не наняли бы его»: ИИ пытался вести бизнес в офисе Anthropic и сошел с ума
Anthropic выяснит, кого ИИ лишит работы в ближайшее время
По теме
Anthropic выяснит, кого ИИ лишит работы в ближайшее время

Читать на dev.by