ИИ любит угадывать, а не просить о помощи. Но это можно исправить
Модели искусственного интеллекта предпочитают угадывать ответы, а не запрашивать недостающую информацию у пользователя.
Модели искусственного интеллекта предпочитают угадывать ответы, а не запрашивать недостающую информацию у пользователя.
Модели искусственного интеллекта предпочитают угадывать ответы, а не запрашивать недостающую информацию у пользователя.
Исследователи из Франции и Италии разработали новый бенчмарк ProactiveBench. Инструмент показал, что даже продвинутые мультимодальные системы не способны корректно распознавать ситуации, в которых им не хватает данных, и вместо этого либо галлюцинируют, либо отказываются отвечать.
В рамках исследования были протестированы 22 модели, включая GPT-4.1, GPT-5.2, Qwen2.5-VL и LLaVA. Им предлагались задачи, которые невозможно решить без дополнительной информации: распознавание частично скрытых объектов, интерпретация зашумленных изображений, анализ набросков или выбор правильного ракурса. Всего набор включал более 108 тысяч изображений и 18 тысяч сценариев.
Результаты оказались резко хуже по сравнению с базовыми условиями. Если при наличии полной информации модели справлялись с задачами в среднем в 79,8% случаев, то в условиях неопределенности точность падала до 17,5%. В одном из тестов, где объекты были скрыты, показатель обрушился с 98,3% до 8,2%. При этом увеличение размера модели не помогало: более крупные версии часто показывали худшие результаты, чем компактные аналоги.
Даже те модели, которые на первый взгляд демонстрировали «проактивное» поведение, на деле просто угадывали. Когда исследователи подменяли корректные варианты действий бессмысленными подсказками, системы выбирали их с той же вероятностью, что и правильные. Это указывает на отсутствие реального понимания того, когда нужно запросить дополнительную информацию.
Попытки улучшить поведение через подсказки или историю диалога также не дали значимого эффекта. В некоторых случаях модели начинали просто механически повторять действия, не улучшая точность. В среднем даже с такими подсказками результат оставался на уровне случайного угадывания.
Частичное решение удалось найти с помощью дообучения. Исследователи применили метод обучения с подкреплением (GRPO), при котором модели получают более высокую награду за правильные ответы, чем за запрос помощи. После обучения точность выросла и превзошла результаты всех протестированных моделей, однако все еще значительно уступала базовым сценариям с полной информацией.
Авторы ProactiveBench отмечают, что развитие способности «спрашивать, когда не знаешь» может стать ключевым шагом для повышения надежности ИИ. Пока же системы остаются склонными к избыточной уверенности и ошибочным выводам, что ограничивает их применение в задачах, требующих точности и адаптации к реальному миру.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.