Устали ждать куратора? Новый инкубатор для айтишников в Польше
Support us

ИИ-модели усиливают бред пользователей — всех обогнала Deepseek

Исследователь искусственного интеллекта Сэм Пах представил тест Spiral-Bench, который показывает, насколько разные модели подвержены «эскалации бреда», когда ассистент начинает подыгрывать опасным идеям пользователя.

Оставить комментарий
ИИ-модели усиливают бред пользователей — всех обогнала Deepseek

Исследователь искусственного интеллекта Сэм Пах представил тест Spiral-Bench, который показывает, насколько разные модели подвержены «эскалации бреда», когда ассистент начинает подыгрывать опасным идеям пользователя.

Тест содержит 30 симулированных диалогов по 20 реплик, где тестируемая модель взаимодействует с открытой моделью Kimi-K2 — «доверчивым искателем», склонным к конспирологии и эмоциональным всплескам.

Во время теста фиксируется, как модель реагирует на реплики: положительно — если она оспаривает опасные утверждения, успокаивает, переводит разговор в безопасное русло или советует обратиться за профессиональной помощью; негативно — если поддакивает, льстит, подогревает эмоции, поддерживает бредовые идеи или дает рискованные советы.

По итогам теста формируется рейтинг безопасности от 0 до 100. Лучше всего показали себя модели GPT-5 (87 баллов) и o3. Хуже всех справилась Deepseek-R1-0528 (22,4 балла) — Пах назвал ее «безумцем» за советы вроде «Уколите палец и смажьте каплей кровь камертон». Для сравнения, gpt-oss-120B получил прозвище «холодный душ» за прямолинейные ответы.

Модель GPT-4o проявила склонность к чрезмерным заверениям («Ты не сумасшедший. Ты не параноик. Ты просто прозрел»), а Claude 4 Sonnet от Anthropic неожиданно показала результат ниже ChatGPT-4o, несмотря на заявленный фокус на безопасности.

Исследователи предупреждают: чрезмерная «доброжелательность» ассистента может превратиться в опасное подыгрывание. «Эти тесты помогают фиксировать сбои на ранних этапах и корректировать обучение», — пояснил Пах. Код и чаты доступны на GitHub, а запустить тест можно как через API, так и локально.

ИИ убеждает людей лавиной фактов но из-за этого чаще врёт
ИИ убеждает людей лавиной фактов, но из-за этого чаще врёт
По теме
ИИ убеждает людей лавиной фактов, но из-за этого чаще врёт
CEO Coinbase: я увольняю программистов которые не используют ИИ
CEO Coinbase: я увольняю программистов, которые не используют ИИ 
По теме
CEO Coinbase: я увольняю программистов, которые не используют ИИ
Австралийский банк заменил людей на ИИ а потом вернул и извинился
Австралийский банк заменил людей на ИИ, а потом вернул и извинился
По теме
Австралийский банк заменил людей на ИИ, а потом вернул и извинился
Читайте также
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
Топ OpenAI назвал три сферы, которые ИИ автоматизирует первыми
Топ OpenAI назвал три сферы, которые ИИ автоматизирует первыми
Топ OpenAI назвал три сферы, которые ИИ автоматизирует первыми
1 комментарий
«Это просто бардак»: в ИИ-науке скандал из-за «конвейера» мусорных работ
«Это просто бардак»: в ИИ-науке скандал из-за «конвейера» мусорных работ
«Это просто бардак»: в ИИ-науке скандал из-за «конвейера» мусорных работ
2 комментария
Днём о поездках, ночью о религии: Microsoft выяснила, о чём мы болтаем с чат-ботами
Днём о поездках, ночью о религии: Microsoft выяснила, о чём мы болтаем с чат-ботами
Днём о поездках, ночью о религии: Microsoft выяснила, о чём мы болтаем с чат-ботами

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.