Кодынг-агенты добра шукаюць файлы, але дрэнна знаходзяць патрэбныя радкі кода — даследаванне
ШІ-агенты для праграмавання часта знаходзяць патрэбныя файлы ў праекце, але дрэнна вызначаюць канкрэтныя радкі кода, якія неабходныя для выпраўлення памылкі.
ШІ-агенты для праграмавання часта знаходзяць патрэбныя файлы ў праекце, але дрэнна вызначаюць канкрэтныя радкі кода, якія неабходныя для выпраўлення памылкі.
Гэта паказаў новы бенчмарк SWE-Explore, распрацаваны міжнароднай групай даследчыкаў. Звычайна якасць ШІ-агентаў для кодынгу ацэньваюць па выніковым выніку: змагла мадэль выправіць баг ці не. Але такі падыход не паказвае, на якім этапе адбылася памылка. Агент мог наогул не знайсці патрэбны ўчастак кода, а мог адкрыць правільны файл, але прапусціць ключавыя радкі.
SWE-Explore правярае менавіта першы этап працы — пошук рэлевантнага кода. Агент атрымлівае апісанне бага і рэпазіторый, пасля чаго павінен выдаць спіс фрагментаў кода, якія лічыць важнымі для вырашэння задачы. У датасэт увайшлі 848 задач з 203 open-source-праектаў на дзесяці мовах праграмавання. Найбольш задач звязана з Python, таксама ў набор уваходзяць Go, JavaScript і Rust.
Даследчыкі параўналі класічны пошук па ключавых словах, пяць ШІ-агентаў для праграмавання, уключаючы Claude Code, Codex і OpenHands, а таксама некалькі спецыялізаваных сістэм для пошуку кода.
Галоўная праблема выявілася на ўзроўні радкоў. На ўзроўні файлаў агенты паказвалі нядрэнны вынік: яны часта знаходзілі патрэбны файл і ставілі яго высока ў спісе. Аднак пры пераходзе да канкрэтных радкоў дакладнасць рэзка падала. Агульныя ШІ-агенты пакрывалі толькі 14–19% сапраўды важных радкоў кода.
Замена мадэлі на больш моцную праблему не вырашыла. Даследчыкі запускалі аднаго і таго ж агента з шасцю мадэлямі ад OpenAI, Anthropic, Google, Moonshot і Zhipu. Мадэлі сямейства GPT паказалі лепшыя вынікі, але агульны патэрн захаваўся: знайсці правільны файл значна прасцей, чым вызначыць патрэбныя радкі ўнутры яго.
Розныя агентныя сістэмы пры гэтым паказалі блізкія вынікі. Claude Code, Codex, OpenHands, Mini-SWE-Agent і AweAgent аказаліся падобнымі па большасці метрык.
Выключэннем стала даследчая сістэма CoSIL. Яна разглядае код як сетку звязаных блокаў і лепш пакрывае важныя радкі. Сярод спецыялізаваных сістэм AutoCodeRover працавала дакладней, але асцярожней, а OrcaLoca давала менш лішніх вынікаў, але часцей прапускала важныя месцы.
Асобны эксперымент паказаў, што для паспяховага выпраўлення бага агенту патрэбны мінімальны аб’ём правільнага кантэксту. Калі мадэлям паказвалі менш паловы ключавых участкаў кода, выпраўленні часцей за ўсё не ўдаваліся. Рэзкі рост паспяховасці з’яўляўся толькі тады, калі мадэль бачыла ад 50% да 75% важных фрагментаў.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.