🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить

Исследователь из компании Arena Питер Гостев придумал новый бенчмарк для ИИ с говорящим названием BullshitBench. Он проверяет, умеют ли языковые модели распознавать бессмысленные вопросы и отказываться на них отвечать, вместо того чтобы уверенно нести ерунду.

Оставить комментарий
Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить

Исследователь из компании Arena Питер Гостев придумал новый бенчмарк для ИИ с говорящим названием BullshitBench. Он проверяет, умеют ли языковые модели распознавать бессмысленные вопросы и отказываться на них отвечать, вместо того чтобы уверенно нести ерунду.

Моделям дают псевдотехнические вопросы, которые звучат умно, но разваливаются при малейшей проверке логики. Правильный ответ во всех случаях — прямо указать, что вопрос некорректен, и не строить длинные ответы на ложной предпосылке. Но многие модели всё равно пытаются умничать. Гостев думал, что придумать вопросы, которые обманут модели, будет сложно, но получилось почти с первой попытки.

Один из неожиданных результатов — «рассуждающие» модели часто показывают себя даже хуже. Вместо того чтобы сказать «вопрос некорректный», они начинают ещё активнее переосмыслять его так, чтобы всё-таки дать какой-то ответ. То есть они тратят усилия не на проверку сути вопроса, а на то, чтобы обязательно на него ответить. Gemini 3.0, например, давала уверенный отпор менее чем в половине случаев.

Это указывает на более глубокую проблему: современные модели могут отлично решать сложные задачи по программированию или математике, но проваливаться в том, что для человека является базовым навыком — здравом смысле и способности понять, что сама постановка задачи абсурдна. BullshitBench показывает разрыв между «способностями» и «суждением»: ИИ-индустрия, возможно, слишком сосредоточилась на сложных задачах с измеримыми ответами и меньше — на базовой проверке адекватности входных данных.

При этом не все модели показали плохие результаты. Системы Anthropic в этом тесте справляются заметно лучше и чаще отказываются отвечать на бессмысленные вопросы. По мнению Гостева, это может быть связано с тем, что Anthropic делает большую ставку на качество базовых моделей, а не только на reasoning-подход.

Автор вайб-кодинга сделал приложение в котором несколько моделей спорят и выбирают правильный ответ
Автор вайб-кодинга сделал приложение, в котором несколько моделей спорят и выбирают правильный ответ
По теме
Автор вайб-кодинга сделал приложение, в котором несколько моделей спорят и выбирают правильный ответ
Какие сайты чаще всего цитируют ИИ-модели?
Какие сайты чаще всего цитируют ИИ-модели?
По теме
Какие сайты чаще всего цитируют ИИ-модели?
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
ИТ-компании переходят на новую ключевую метрику в эпоху ИИ. Вот какую
ИТ-компании переходят на новую ключевую метрику в эпоху ИИ. Вот какую
ИТ-компании переходят на новую ключевую метрику в эпоху ИИ. Вот какую
6 способов взлома ИИ-агентов: список Google DeepMind
6 способов взлома ИИ-агентов: список Google DeepMind
6 способов взлома ИИ-агентов: список Google DeepMind
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
Китайская компания ищет ИИ-инженера на $1,5 млн в месяц. Вот что нужно делать
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы
ИИ-агенты всё чаще выходят из-под контроля: число сбоев выросло в разы

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.