Support us

Кодинг-агенты хорошо ищут файлы, но плохо находят нужные строки кода — исследование

ИИ-агенты для программирования часто находят правильные файлы в проекте, но плохо определяют конкретные строки кода, которые нужны для исправления ошибки.

Оставить комментарий
Кодинг-агенты хорошо ищут файлы, но плохо находят нужные строки кода — исследование

ИИ-агенты для программирования часто находят правильные файлы в проекте, но плохо определяют конкретные строки кода, которые нужны для исправления ошибки.

Это показал новый бенчмарк SWE-Explore, разработанный международной группой исследователей. Обычно качество ИИ-агентов для кодинга оценивают по итоговому результату: смогла модель исправить баг или нет. Но такой подход не показывает, на каком этапе произошла ошибка. Агент мог вообще не найти нужный участок кода, а мог открыть правильный файл, но пропустить ключевые строки.

SWE-Explore проверяет именно первый этап работы — поиск релевантного кода. Агент получает описание бага и репозиторий, после чего должен выдать список фрагментов кода, которые считает важными для решения задачи. В датасет вошли 848 задач из 203 open-source-проектов на десяти языках программирования. Больше всего задач связано с Python, также в набор входят Go, JavaScript и Rust.

Исследователи сравнили классический поиск по ключевым словам, пять ИИ-агентов для программирования, включая Claude Code, Codex и OpenHands, а также несколько специализированных систем для поиска кода.

Главная проблема обнаружилась на уровне строк. На уровне файлов агенты показывали неплохой результат: они часто находили нужный файл и ставили его высоко в списке. Однако при переходе к конкретным строкам точность резко падала. Общие ИИ-агенты покрывали только 14–19% действительно важных строк кода.

Замена модели на более сильную проблему не решила. Исследователи запускали один и тот же агент с шестью моделями от OpenAI, Anthropic, Google, Moonshot и Zhipu. Модели семейства GPT показали лучшие результаты, но общий паттерн сохранился: найти правильный файл гораздо проще, чем определить нужные строки внутри него.

Разные агентные системы при этом показали близкие результаты. Claude Code, Codex, OpenHands, Mini-SWE-Agent и AweAgent оказались похожи по большинству метрик.

Исключением стала исследовательская система CoSIL. Она рассматривает код как сеть связанных блоков и лучше покрывает важные строки. Среди специализированных систем AutoCodeRover работала точнее, но осторожнее, а OrcaLoca давала меньше лишних результатов, но чаще пропускала важные места.

Отдельный эксперимент показал, что для успешного исправления бага агенту нужен минимальный объем правильного контекста. Если модели показывали меньше половины ключевых участков кода, исправления чаще всего не удавались. Резкий рост успешности появлялся только тогда, когда модель видела от 50% до 75% важных фрагментов.

Пользователь заявил что взломал ограничения Claude Fable 5 с помощью кириллицы
Пользователь заявил, что взломал ограничения Claude Fable 5 с помощью кириллицы
По теме
Пользователь заявил, что взломал ограничения Claude Fable 5 с помощью кириллицы
Исследователи обучили ИИ-модель с нуля всего за $1500
Исследователи обучили ИИ-модель с нуля всего за $1500
По теме
Исследователи обучили ИИ-модель с нуля всего за $1500
Разработчики знают что ИИ-код уязвим но всё равно выпускают его в релиз
Разработчики знают, что ИИ-код уязвим, но всё равно выпускают его в релиз
По теме
Разработчики знают, что ИИ-код уязвим, но всё равно выпускают его в релиз
Читайте также
«Он пугающе хорош»: ИИ пишет код слишком хорошо, разработчикам не по себе
«Он пугающе хорош»: ИИ пишет код слишком хорошо, разработчикам не по себе
«Он пугающе хорош»: ИИ пишет код слишком хорошо, разработчикам не по себе
1 комментарий
OpenAI запустила ИИ-агента, который сам ищет и фиксит баги
OpenAI запустила ИИ-агента, который сам ищет и фиксит баги
OpenAI запустила ИИ-агента, который сам ищет и фиксит баги
1 комментарий
Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью
Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью
Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью
Топ-модели для кодинга ошибаются в четверти случаев — исследование
Топ-модели для кодинга ошибаются в четверти случаев — исследование
Топ-модели для кодинга ошибаются в четверти случаев — исследование

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.