Николай Чикишев world 13 апреля 2026, 15:30

ИИ любит угадывать, а не просить о помощи. Но это можно исправить

Модели искусственного интеллекта предпочитают угадывать ответы, а не запрашивать недостающую информацию у пользователя.

Исследователи из Франции и Италии разработали новый бенчмарк ProactiveBench. Инструмент показал, что даже продвинутые мультимодальные системы не способны корректно распознавать ситуации, в которых им не хватает данных, и вместо этого либо галлюцинируют, либо отказываются отвечать.

В рамках исследования были протестированы 22 модели, включая GPT-4.1, GPT-5.2, Qwen2.5-VL и LLaVA. Им предлагались задачи, которые невозможно решить без дополнительной информации: распознавание частично скрытых объектов, интерпретация зашумленных изображений, анализ набросков или выбор правильного ракурса. Всего набор включал более 108 тысяч изображений и 18 тысяч сценариев.

Результаты оказались резко хуже по сравнению с базовыми условиями. Если при наличии полной информации модели справлялись с задачами в среднем в 79,8% случаев, то в условиях неопределенности точность падала до 17,5%. В одном из тестов, где объекты были скрыты, показатель обрушился с 98,3% до 8,2%. При этом увеличение размера модели не помогало: более крупные версии часто показывали худшие результаты, чем компактные аналоги.

Даже те модели, которые на первый взгляд демонстрировали «проактивное» поведение, на деле просто угадывали. Когда исследователи подменяли корректные варианты действий бессмысленными подсказками, системы выбирали их с той же вероятностью, что и правильные. Это указывает на отсутствие реального понимания того, когда нужно запросить дополнительную информацию.

Попытки улучшить поведение через подсказки или историю диалога также не дали значимого эффекта. В некоторых случаях модели начинали просто механически повторять действия, не улучшая точность. В среднем даже с такими подсказками результат оставался на уровне случайного угадывания.

Частичное решение удалось найти с помощью дообучения. Исследователи применили метод обучения с подкреплением (GRPO), при котором модели получают более высокую награду за правильные ответы, чем за запрос помощи. После обучения точность выросла и превзошла результаты всех протестированных моделей, однако все еще значительно уступала базовым сценариям с полной информацией.

Авторы ProactiveBench отмечают, что развитие способности «спрашивать, когда не знаешь» может стать ключевым шагом для повышения надежности ИИ. Пока же системы остаются склонными к избыточной уверенности и ошибочным выводам, что ограничивает их применение в задачах, требующих точности и адаптации к реальному миру.

ИИ не умеет зарабатывать: все топ-модели проиграли в ставках на спорт

«40% безработицы и трёхдневка — это одно и то же»: эксперт об ИИ-экономике

Что эффективнее: один ИИ-агент или несколько? Ответ не так очевиден

1 комментарий

Текст: Николай Чикишев Источник: arXiv Теги: искусственный интеллект, бенчмарки, галлюцинации, исследование

Нашли ошибку в тексте-выделите ее и нажмите Ctrl+Enter. Нашли ошибку в тексте-выделите ее и нажмите кнопку «Сообщить об ошибке»."

Сайт компании Вакансии

Размещение рекламы

Чат-боты соглашаются с ошибками в промптах, если их не предупредить

ИИ пытается избежать отключения любой ценой — исследование

6 комментариев

Почему ИИ думает дольше там, где думать почти не нужно — учёные нашли ответ

Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

shipishi Должность в Белокрылые лошадки

0

молодцы, конечно, что в цифрах показали, но что ИИ ведет себя как студент на экзамене (попытка - не пытка) в общем-то секрет Полишинеля. Насколько лечится - посмотрим.

Войдите, чтобы оставить комментарий