🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить

Исследователь из компании Arena Питер Гостев придумал новый бенчмарк для ИИ с говорящим названием BullshitBench. Он проверяет, умеют ли языковые модели распознавать бессмысленные вопросы и отказываться на них отвечать, вместо того чтобы уверенно нести ерунду.

Оставить комментарий
Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить

Исследователь из компании Arena Питер Гостев придумал новый бенчмарк для ИИ с говорящим названием BullshitBench. Он проверяет, умеют ли языковые модели распознавать бессмысленные вопросы и отказываться на них отвечать, вместо того чтобы уверенно нести ерунду.

Моделям дают псевдотехнические вопросы, которые звучат умно, но разваливаются при малейшей проверке логики. Правильный ответ во всех случаях — прямо указать, что вопрос некорректен, и не строить длинные ответы на ложной предпосылке. Но многие модели всё равно пытаются умничать. Гостев думал, что придумать вопросы, которые обманут модели, будет сложно, но получилось почти с первой попытки.

Один из неожиданных результатов — «рассуждающие» модели часто показывают себя даже хуже. Вместо того чтобы сказать «вопрос некорректный», они начинают ещё активнее переосмыслять его так, чтобы всё-таки дать какой-то ответ. То есть они тратят усилия не на проверку сути вопроса, а на то, чтобы обязательно на него ответить. Gemini 3.0, например, давала уверенный отпор менее чем в половине случаев.

Это указывает на более глубокую проблему: современные модели могут отлично решать сложные задачи по программированию или математике, но проваливаться в том, что для человека является базовым навыком — здравом смысле и способности понять, что сама постановка задачи абсурдна. BullshitBench показывает разрыв между «способностями» и «суждением»: ИИ-индустрия, возможно, слишком сосредоточилась на сложных задачах с измеримыми ответами и меньше — на базовой проверке адекватности входных данных.

При этом не все модели показали плохие результаты. Системы Anthropic в этом тесте справляются заметно лучше и чаще отказываются отвечать на бессмысленные вопросы. По мнению Гостева, это может быть связано с тем, что Anthropic делает большую ставку на качество базовых моделей, а не только на reasoning-подход.

Автор вайб-кодинга сделал приложение в котором несколько моделей спорят и выбирают правильный ответ
Автор вайб-кодинга сделал приложение, в котором несколько моделей спорят и выбирают правильный ответ
По теме
Автор вайб-кодинга сделал приложение, в котором несколько моделей спорят и выбирают правильный ответ
Какие сайты чаще всего цитируют ИИ-модели?
Какие сайты чаще всего цитируют ИИ-модели?
По теме
Какие сайты чаще всего цитируют ИИ-модели?
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Почему ИИ думает дольше там, где думать почти не нужно — учёные нашли ответ
Почему ИИ думает дольше там, где думать почти не нужно — учёные нашли ответ
Почему ИИ думает дольше там, где думать почти не нужно — учёные нашли ответ
ИИ-бенчмарки врут, но все продолжают ими пользоваться — исследование
ИИ-бенчмарки врут, но все продолжают ими пользоваться — исследование
ИИ-бенчмарки врут, но все продолжают ими пользоваться — исследование
Популярные ИИ-бенчмарки можно обмануть простыми эксплойтами
Популярные ИИ-бенчмарки можно обмануть простыми эксплойтами
Популярные ИИ-бенчмарки можно обмануть простыми эксплойтами
ИИ любит угадывать, а не просить о помощи. Но это можно исправить
ИИ любит угадывать, а не просить о помощи. Но это можно исправить
ИИ любит угадывать, а не просить о помощи. Но это можно исправить
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.