Support us

ИИ-поисковики часто не ищут ответ, а подтверждают то, что уже «знают»

ИИ-агенты с доступом к веб-поиску часто не столько исследуют интернет, сколько проверяют гипотезы, которые уже есть во внутренней памяти модели. К такому выводу пришли китайские исследователи.

1 комментарий
ИИ-поисковики часто не ищут ответ, а подтверждают то, что уже «знают»

ИИ-агенты с доступом к веб-поиску часто не столько исследуют интернет, сколько проверяют гипотезы, которые уже есть во внутренней памяти модели. К такому выводу пришли китайские исследователи.

Авторы изучили, как ИИ-агенты справляются с задачами на веб-поиск. Такие бенчмарки обычно проверяют, может ли модель найти ответ на сложный вопрос, используя несколько источников в интернете. Однако исследователи обнаружили, что высокие результаты на популярных тестах не всегда означают сильные поисковые навыки.

Проблема заключается в том, что часть ответов уже может быть «зашита» в модель во время обучения. Авторы называют это intrinsic knowledge dependence — зависимостью от внутреннего знания модели. В таких случаях агент не ищет ответ с нуля, а фактически пытается подтвердить то, что уже предполагает.

В одном из экспериментов исследователи отключили у моделей инструменты поиска. Даже без доступа к интернету некоторые системы смогли правильно ответить на заметную часть вопросов. Например, MiniMax M2.5 решила 44,5% задач BrowseComp из памяти, а Kimi K2.6 показала 62% на китайской версии бенчмарка BrowseComp-ZH.

Еще более показательный результат появился, когда поиск оставили включенным, но убрали из выдачи документы, содержащие правильный ответ. После этого модели стали отвечать хуже, чем вообще без поиска. У MiniMax M2.5 результат упал с 44,5% до 8%, а у Kimi-K2.6 — с 25,5% до 2,3%.

В США первокурсникам заново объясняют школьную математику: виноваты ИИ и ковид
В США первокурсникам заново объясняют школьную математику: виноваты ИИ и ковид
По теме
В США первокурсникам заново объясняют школьную математику: виноваты ИИ и ковид

По мнению ученых, это показывает, что поиск может не помогать, а сбивать модель, если она не находит подтверждения своей первоначальной гипотезе. Анализ поисковых цепочек также показал, что больше половины запросов агенты формируют из собственных рассуждений, а не из уже найденных фактов. Даже когда в результатах появляется релевантное доказательство, модели используют его менее чем в трети случаев.

Чтобы проверить реальные поисковые способности ИИ, исследователи создали новый бенчмарк LiveBrowseComp. Он включает 335 вопросов, каждый из которых зависит минимум от одного факта, появившегося за последние 90 дней. Такие вопросы невозможно надежно решить только за счет старых знаний модели.

На LiveBrowseComp все модели без доступа к поиску показали точность ниже 2%. С включенными инструментами результаты тоже оказались на 25–40 процентных пунктов ниже, чем на обычном BrowseComp. При этом для людей новый тест оказался сопоставимым по сложности со старым, поэтому падение результатов авторы связывают именно с исчезновением «подсказки» из памяти модели.

Исследование также показало, что рейтинги моделей могут сильно меняться на динамических тестах. Модель, которая хорошо выглядит на статическом бенчмарке, может заметно просесть на LiveBrowseComp, если ей действительно приходится искать свежую информацию, а не опираться на уже изученные данные.

OpenAI прокачала память ChatGPT: чат-бот лучше учитывает ваши привычки и проекты
OpenAI прокачала память ChatGPT: чат-бот лучше учитывает ваши привычки и проекты
По теме
OpenAI прокачала память ChatGPT: чат-бот лучше учитывает ваши привычки и проекты
Одна метрика определит победителя в ИИ-гонке — CEO Perplexity
Одна метрика определит победителя в ИИ-гонке — CEO Perplexity
По теме
Одна метрика определит победителя в ИИ-гонке — CEO Perplexity
Программисты привыкли к ИИ настолько что отказываются кодить без него
Программисты привыкли к ИИ настолько, что отказываются кодить без него
По теме
Программисты привыкли к ИИ настолько, что отказываются кодить без него
Читайте также
ИИ пытается избежать отключения любой ценой — исследование
ИИ пытается избежать отключения любой ценой — исследование
ИИ пытается избежать отключения любой ценой — исследование
6 комментариев
DeepSeek пишет более уязвимый код для тех, кто не нравится партии
DeepSeek пишет более уязвимый код для тех, кто не нравится партии
DeepSeek пишет более уязвимый код для тех, кто не нравится партии
ИИ заметил, что его «взломали» во время эксперимента
ИИ заметил, что его «взломали» во время эксперимента
ИИ заметил, что его «взломали» во время эксперимента
ИИ любит угадывать, а не просить о помощи. Но это можно исправить
ИИ любит угадывать, а не просить о помощи. Но это можно исправить
ИИ любит угадывать, а не просить о помощи. Но это можно исправить
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

fallinmyhand
fallinmyhand Патриот в Мерси Софтваре
0

да неужели? разве у расширенного T9 нету сознания?