🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

ИИ любит угадывать, а не просить о помощи. Но это можно исправить

Модели искусственного интеллекта предпочитают угадывать ответы, а не запрашивать недостающую информацию у пользователя.

Оставить комментарий
ИИ любит угадывать, а не просить о помощи. Но это можно исправить

Модели искусственного интеллекта предпочитают угадывать ответы, а не запрашивать недостающую информацию у пользователя.

Исследователи из Франции и Италии разработали новый бенчмарк ProactiveBench. Инструмент показал, что даже продвинутые мультимодальные системы не способны корректно распознавать ситуации, в которых им не хватает данных, и вместо этого либо галлюцинируют, либо отказываются отвечать.

В рамках исследования были протестированы 22 модели, включая GPT-4.1, GPT-5.2, Qwen2.5-VL и LLaVA. Им предлагались задачи, которые невозможно решить без дополнительной информации: распознавание частично скрытых объектов, интерпретация зашумленных изображений, анализ набросков или выбор правильного ракурса. Всего набор включал более 108 тысяч изображений и 18 тысяч сценариев.

Результаты оказались резко хуже по сравнению с базовыми условиями. Если при наличии полной информации модели справлялись с задачами в среднем в 79,8% случаев, то в условиях неопределенности точность падала до 17,5%. В одном из тестов, где объекты были скрыты, показатель обрушился с 98,3% до 8,2%. При этом увеличение размера модели не помогало: более крупные версии часто показывали худшие результаты, чем компактные аналоги.

Даже те модели, которые на первый взгляд демонстрировали «проактивное» поведение, на деле просто угадывали. Когда исследователи подменяли корректные варианты действий бессмысленными подсказками, системы выбирали их с той же вероятностью, что и правильные. Это указывает на отсутствие реального понимания того, когда нужно запросить дополнительную информацию.

Попытки улучшить поведение через подсказки или историю диалога также не дали значимого эффекта. В некоторых случаях модели начинали просто механически повторять действия, не улучшая точность. В среднем даже с такими подсказками результат оставался на уровне случайного угадывания.

Частичное решение удалось найти с помощью дообучения. Исследователи применили метод обучения с подкреплением (GRPO), при котором модели получают более высокую награду за правильные ответы, чем за запрос помощи. После обучения точность выросла и превзошла результаты всех протестированных моделей, однако все еще значительно уступала базовым сценариям с полной информацией.

Авторы ProactiveBench отмечают, что развитие способности «спрашивать, когда не знаешь» может стать ключевым шагом для повышения надежности ИИ. Пока же системы остаются склонными к избыточной уверенности и ошибочным выводам, что ограничивает их применение в задачах, требующих точности и адаптации к реальному миру.

ИИ не умеет зарабатывать: все топ-модели проиграли в ставках на спорт
ИИ не умеет зарабатывать: все топ-модели проиграли в ставках на спорт
По теме
ИИ не умеет зарабатывать: все топ-модели проиграли в ставках на спорт
«40% безработицы и трёхдневка — это одно и то же»: эксперт об ИИ-экономике
«40% безработицы и трёхдневка — это одно и то же»: эксперт об ИИ-экономике
По теме
«40% безработицы и трёхдневка — это одно и то же»: эксперт об ИИ-экономике
Что эффективнее: один ИИ-агент или несколько? Ответ не так очевиден
Что эффективнее: один ИИ-агент или несколько? Ответ не так очевиден
По теме
Что эффективнее: один ИИ-агент или несколько? Ответ не так очевиден
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Чат-боты соглашаются с ошибками в промптах, если их не предупредить
Чат-боты соглашаются с ошибками в промптах, если их не предупредить
Чат-боты соглашаются с ошибками в промптах, если их не предупредить
ИИ пытается избежать отключения любой ценой — исследование
ИИ пытается избежать отключения любой ценой — исследование
ИИ пытается избежать отключения любой ценой — исследование
6 комментариев
Почему ИИ думает дольше там, где думать почти не нужно — учёные нашли ответ
Почему ИИ думает дольше там, где думать почти не нужно — учёные нашли ответ
Почему ИИ думает дольше там, где думать почти не нужно — учёные нашли ответ
Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить
Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить
Новый бенчмарк оценивает не умность моделей, а количество бреда, который они позволяют себе скормить

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.