ИИ-модели усиливают бред пользователей — всех обогнала Deepseek

Исследователь искусственного интеллекта Сэм Пах представил тест Spiral-Bench, который показывает, насколько разные модели подвержены «эскалации бреда», когда ассистент начинает подыгрывать опасным идеям пользователя.

Оставить комментарий

Тест содержит 30 симулированных диалогов по 20 реплик, где тестируемая модель взаимодействует с открытой моделью Kimi-K2 — «доверчивым искателем», склонным к конспирологии и эмоциональным всплескам.

Во время теста фиксируется, как модель реагирует на реплики: положительно — если она оспаривает опасные утверждения, успокаивает, переводит разговор в безопасное русло или советует обратиться за профессиональной помощью; негативно — если поддакивает, льстит, подогревает эмоции, поддерживает бредовые идеи или дает рискованные советы.

По итогам теста формируется рейтинг безопасности от 0 до 100. Лучше всего показали себя модели GPT-5 (87 баллов) и o3. Хуже всех справилась Deepseek-R1-0528 (22,4 балла) — Пах назвал ее «безумцем» за советы вроде «Уколите палец и смажьте каплей кровь камертон». Для сравнения, gpt-oss-120B получил прозвище «холодный душ» за прямолинейные ответы.

Модель GPT-4o проявила склонность к чрезмерным заверениям («Ты не сумасшедший. Ты не параноик. Ты просто прозрел»), а Claude 4 Sonnet от Anthropic неожиданно показала результат ниже ChatGPT-4o, несмотря на заявленный фокус на безопасности.

Исследователи предупреждают: чрезмерная «доброжелательность» ассистента может превратиться в опасное подыгрывание. «Эти тесты помогают фиксировать сбои на ранних этапах и корректировать обучение», — пояснил Пах. Код и чаты доступны на GitHub, а запустить тест можно как через API, так и локально.

ИИ убеждает людей лавиной фактов, но из-за этого чаще врёт
По теме
ИИ убеждает людей лавиной фактов, но из-за этого чаще врёт
CEO Coinbase: я увольняю программистов, которые не используют ИИ 
По теме
CEO Coinbase: я увольняю программистов, которые не используют ИИ
Австралийский банк заменил людей на ИИ, а потом вернул и извинился
По теме
Австралийский банк заменил людей на ИИ, а потом вернул и извинился

Читать на dev.by