ИИ-поисковики часто не ищут ответ, а подтверждают то, что уже «знают»
ИИ-агенты с доступом к веб-поиску часто не столько исследуют интернет, сколько проверяют гипотезы, которые уже есть во внутренней памяти модели. К такому выводу пришли китайские исследователи.
ИИ-агенты с доступом к веб-поиску часто не столько исследуют интернет, сколько проверяют гипотезы, которые уже есть во внутренней памяти модели. К такому выводу пришли китайские исследователи.
Авторы изучили, как ИИ-агенты справляются с задачами на веб-поиск. Такие бенчмарки обычно проверяют, может ли модель найти ответ на сложный вопрос, используя несколько источников в интернете. Однако исследователи обнаружили, что высокие результаты на популярных тестах не всегда означают сильные поисковые навыки.
Проблема заключается в том, что часть ответов уже может быть «зашита» в модель во время обучения. Авторы называют это intrinsic knowledge dependence — зависимостью от внутреннего знания модели. В таких случаях агент не ищет ответ с нуля, а фактически пытается подтвердить то, что уже предполагает.
В одном из экспериментов исследователи отключили у моделей инструменты поиска. Даже без доступа к интернету некоторые системы смогли правильно ответить на заметную часть вопросов. Например, MiniMax M2.5 решила 44,5% задач BrowseComp из памяти, а Kimi K2.6 показала 62% на китайской версии бенчмарка BrowseComp-ZH.
Еще более показательный результат появился, когда поиск оставили включенным, но убрали из выдачи документы, содержащие правильный ответ. После этого модели стали отвечать хуже, чем вообще без поиска. У MiniMax M2.5 результат упал с 44,5% до 8%, а у Kimi-K2.6 — с 25,5% до 2,3%.
В США первокурсникам заново объясняют школьную математику: виноваты ИИ и ковид
По мнению ученых, это показывает, что поиск может не помогать, а сбивать модель, если она не находит подтверждения своей первоначальной гипотезе. Анализ поисковых цепочек также показал, что больше половины запросов агенты формируют из собственных рассуждений, а не из уже найденных фактов. Даже когда в результатах появляется релевантное доказательство, модели используют его менее чем в трети случаев.
Чтобы проверить реальные поисковые способности ИИ, исследователи создали новый бенчмарк LiveBrowseComp. Он включает 335 вопросов, каждый из которых зависит минимум от одного факта, появившегося за последние 90 дней. Такие вопросы невозможно надежно решить только за счет старых знаний модели.
На LiveBrowseComp все модели без доступа к поиску показали точность ниже 2%. С включенными инструментами результаты тоже оказались на 25–40 процентных пунктов ниже, чем на обычном BrowseComp. При этом для людей новый тест оказался сопоставимым по сложности со старым, поэтому падение результатов авторы связывают именно с исчезновением «подсказки» из памяти модели.
Исследование также показало, что рейтинги моделей могут сильно меняться на динамических тестах. Модель, которая хорошо выглядит на статическом бенчмарке, может заметно просесть на LiveBrowseComp, если ей действительно приходится искать свежую информацию, а не опираться на уже изученные данные.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.