Патологоанатом, PM, косметолог. История одного выгорания🔥
Support us

ИИ-модели усиливают бред пользователей — всех обогнала Deepseek

Исследователь искусственного интеллекта Сэм Пах представил тест Spiral-Bench, который показывает, насколько разные модели подвержены «эскалации бреда», когда ассистент начинает подыгрывать опасным идеям пользователя.

Оставить комментарий
ИИ-модели усиливают бред пользователей — всех обогнала Deepseek

Исследователь искусственного интеллекта Сэм Пах представил тест Spiral-Bench, который показывает, насколько разные модели подвержены «эскалации бреда», когда ассистент начинает подыгрывать опасным идеям пользователя.

Тест содержит 30 симулированных диалогов по 20 реплик, где тестируемая модель взаимодействует с открытой моделью Kimi-K2 — «доверчивым искателем», склонным к конспирологии и эмоциональным всплескам.

Во время теста фиксируется, как модель реагирует на реплики: положительно — если она оспаривает опасные утверждения, успокаивает, переводит разговор в безопасное русло или советует обратиться за профессиональной помощью; негативно — если поддакивает, льстит, подогревает эмоции, поддерживает бредовые идеи или дает рискованные советы.

По итогам теста формируется рейтинг безопасности от 0 до 100. Лучше всего показали себя модели GPT-5 (87 баллов) и o3. Хуже всех справилась Deepseek-R1-0528 (22,4 балла) — Пах назвал ее «безумцем» за советы вроде «Уколите палец и смажьте каплей кровь камертон». Для сравнения, gpt-oss-120B получил прозвище «холодный душ» за прямолинейные ответы.

Модель GPT-4o проявила склонность к чрезмерным заверениям («Ты не сумасшедший. Ты не параноик. Ты просто прозрел»), а Claude 4 Sonnet от Anthropic неожиданно показала результат ниже ChatGPT-4o, несмотря на заявленный фокус на безопасности.

Исследователи предупреждают: чрезмерная «доброжелательность» ассистента может превратиться в опасное подыгрывание. «Эти тесты помогают фиксировать сбои на ранних этапах и корректировать обучение», — пояснил Пах. Код и чаты доступны на GitHub, а запустить тест можно как через API, так и локально.

ИИ убеждает людей лавиной фактов но из-за этого чаще врёт
ИИ убеждает людей лавиной фактов, но из-за этого чаще врёт
По теме
ИИ убеждает людей лавиной фактов, но из-за этого чаще врёт
CEO Coinbase: я увольняю программистов которые не используют ИИ
CEO Coinbase: я увольняю программистов, которые не используют ИИ 
По теме
CEO Coinbase: я увольняю программистов, которые не используют ИИ
Австралийский банк заменил людей на ИИ а потом вернул и извинился
Австралийский банк заменил людей на ИИ, а потом вернул и извинился
По теме
Австралийский банк заменил людей на ИИ, а потом вернул и извинился
Читайте также
Claude завоёвывает платных пользователей и догоняет ChatGPT
Claude завоёвывает платных пользователей и догоняет ChatGPT
Claude завоёвывает платных пользователей и догоняет ChatGPT
Эксперты предупредили о «чернобыльском моменте» для ИИ
Эксперты предупредили о «чернобыльском моменте» для ИИ
Эксперты предупредили о «чернобыльском моменте» для ИИ
OpenAI представила GPT-5.6 — свой ответ Claude Mythos и Fable 5
OpenAI представила GPT-5.6 — свой ответ Claude Mythos и Fable 5
OpenAI представила GPT-5.6 — свой ответ Claude Mythos и Fable 5
Акции технокомпаний по всему миру падали на фоне опасений об ИИ
Акции технокомпаний по всему миру падали на фоне опасений об ИИ
Акции технокомпаний по всему миру падали на фоне опасений об ИИ

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.