Кодинг-агенты хорошо ищут файлы, но плохо находят нужные строки кода — исследование
ИИ-агенты для программирования часто находят правильные файлы в проекте, но плохо определяют конкретные строки кода, которые нужны для исправления ошибки.
ИИ-агенты для программирования часто находят правильные файлы в проекте, но плохо определяют конкретные строки кода, которые нужны для исправления ошибки.
ИИ-агенты для программирования часто находят правильные файлы в проекте, но плохо определяют конкретные строки кода, которые нужны для исправления ошибки.
Это показал новый бенчмарк SWE-Explore, разработанный международной группой исследователей. Обычно качество ИИ-агентов для кодинга оценивают по итоговому результату: смогла модель исправить баг или нет. Но такой подход не показывает, на каком этапе произошла ошибка. Агент мог вообще не найти нужный участок кода, а мог открыть правильный файл, но пропустить ключевые строки.
SWE-Explore проверяет именно первый этап работы — поиск релевантного кода. Агент получает описание бага и репозиторий, после чего должен выдать список фрагментов кода, которые считает важными для решения задачи. В датасет вошли 848 задач из 203 open-source-проектов на десяти языках программирования. Больше всего задач связано с Python, также в набор входят Go, JavaScript и Rust.
Исследователи сравнили классический поиск по ключевым словам, пять ИИ-агентов для программирования, включая Claude Code, Codex и OpenHands, а также несколько специализированных систем для поиска кода.
Главная проблема обнаружилась на уровне строк. На уровне файлов агенты показывали неплохой результат: они часто находили нужный файл и ставили его высоко в списке. Однако при переходе к конкретным строкам точность резко падала. Общие ИИ-агенты покрывали только 14–19% действительно важных строк кода.
Замена модели на более сильную проблему не решила. Исследователи запускали один и тот же агент с шестью моделями от OpenAI, Anthropic, Google, Moonshot и Zhipu. Модели семейства GPT показали лучшие результаты, но общий паттерн сохранился: найти правильный файл гораздо проще, чем определить нужные строки внутри него.
Разные агентные системы при этом показали близкие результаты. Claude Code, Codex, OpenHands, Mini-SWE-Agent и AweAgent оказались похожи по большинству метрик.
Исключением стала исследовательская система CoSIL. Она рассматривает код как сеть связанных блоков и лучше покрывает важные строки. Среди специализированных систем AutoCodeRover работала точнее, но осторожнее, а OrcaLoca давала меньше лишних результатов, но чаще пропускала важные места.
Отдельный эксперимент показал, что для успешного исправления бага агенту нужен минимальный объем правильного контекста. Если модели показывали меньше половины ключевых участков кода, исправления чаще всего не удавались. Резкий рост успешности появлялся только тогда, когда модель видела от 50% до 75% важных фрагментов.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.