Дапамажыце dev.by 🤍
Падтрымаць

Кодынг-агенты добра шукаюць файлы, але дрэнна знаходзяць патрэбныя радкі кода — даследаванне

ШІ-агенты для праграмавання часта знаходзяць патрэбныя файлы ў праекце, але дрэнна вызначаюць канкрэтныя радкі кода, якія неабходныя для выпраўлення памылкі.

Пакінуць каментарый
Кодынг-агенты добра шукаюць файлы, але дрэнна знаходзяць патрэбныя радкі кода — даследаванне

ШІ-агенты для праграмавання часта знаходзяць патрэбныя файлы ў праекце, але дрэнна вызначаюць канкрэтныя радкі кода, якія неабходныя для выпраўлення памылкі.

Гэта паказаў новы бенчмарк SWE-Explore, распрацаваны міжнароднай групай даследчыкаў. Звычайна якасць ШІ-агентаў для кодынгу ацэньваюць па выніковым выніку: змагла мадэль выправіць баг ці не. Але такі падыход не паказвае, на якім этапе адбылася памылка. Агент мог наогул не знайсці патрэбны ўчастак кода, а мог адкрыць правільны файл, але прапусціць ключавыя радкі.

SWE-Explore правярае менавіта першы этап працы — пошук рэлевантнага кода. Агент атрымлівае апісанне бага і рэпазіторый, пасля чаго павінен выдаць спіс фрагментаў кода, якія лічыць важнымі для вырашэння задачы. У датасэт увайшлі 848 задач з 203 open-source-праектаў на дзесяці мовах праграмавання. Найбольш задач звязана з Python, таксама ў набор уваходзяць Go, JavaScript і Rust.

Даследчыкі параўналі класічны пошук па ключавых словах, пяць ШІ-агентаў для праграмавання, уключаючы Claude Code, Codex і OpenHands, а таксама некалькі спецыялізаваных сістэм для пошуку кода.

Галоўная праблема выявілася на ўзроўні радкоў. На ўзроўні файлаў агенты паказвалі нядрэнны вынік: яны часта знаходзілі патрэбны файл і ставілі яго высока ў спісе. Аднак пры пераходзе да канкрэтных радкоў дакладнасць рэзка падала. Агульныя ШІ-агенты пакрывалі толькі 14–19% сапраўды важных радкоў кода.

Замена мадэлі на больш моцную праблему не вырашыла. Даследчыкі запускалі аднаго і таго ж агента з шасцю мадэлямі ад OpenAI, Anthropic, Google, Moonshot і Zhipu. Мадэлі сямейства GPT паказалі лепшыя вынікі, але агульны патэрн захаваўся: знайсці правільны файл значна прасцей, чым вызначыць патрэбныя радкі ўнутры яго.

Розныя агентныя сістэмы пры гэтым паказалі блізкія вынікі. Claude Code, Codex, OpenHands, Mini-SWE-Agent і AweAgent аказаліся падобнымі па большасці метрык.

Выключэннем стала даследчая сістэма CoSIL. Яна разглядае код як сетку звязаных блокаў і лепш пакрывае важныя радкі. Сярод спецыялізаваных сістэм AutoCodeRover працавала дакладней, але асцярожней, а OrcaLoca давала менш лішніх вынікаў, але часцей прапускала важныя месцы.

Асобны эксперымент паказаў, што для паспяховага выпраўлення бага агенту патрэбны мінімальны аб’ём правільнага кантэксту. Калі мадэлям паказвалі менш паловы ключавых участкаў кода, выпраўленні часцей за ўсё не ўдаваліся. Рэзкі рост паспяховасці з’яўляўся толькі тады, калі мадэль бачыла ад 50% да 75% важных фрагментаў.

Карыстальнік заявіў, што ўзламаў абмежаванні Claude Fable 5 з дапамогай кірыліцы
Карыстальнік заявіў, што ўзламаў абмежаванні Claude Fable 5 з дапамогай кірыліцы
Па тэме
Карыстальнік заявіў, што ўзламаў абмежаванні Claude Fable 5 з дапамогай кірыліцы
Даследчыкі навучылі ІІ-мадэль з нуля ўсяго за $1500
Даследчыкі навучылі ІІ-мадэль з нуля ўсяго за $1500
Па тэме
Даследчыкі навучылі ІІ-мадэль з нуля ўсяго за $1500
Распрацоўшчыкі ведаюць, што ІІ-код уразлівы, але ўсё роўна выпускаюць яго ў рэліз
Распрацоўшчыкі ведаюць, што ІІ-код уразлівы, але ўсё роўна выпускаюць яго ў рэліз
Па тэме
Распрацоўшчыкі ведаюць, што ІІ-код уразлівы, але ўсё роўна выпускаюць яго ў рэліз
Чытайце таксама
Google прэзентавала CodeMender — ШІ-агент сам знаходзіць і выпраўляе багі
Google прэзентавала CodeMender — ШІ-агент сам знаходзіць і выпраўляе багі
Google прэзентавала CodeMender — ШІ-агент сам знаходзіць і выпраўляе багі
OpenAI запусціла ШІ-агента, які сам шукае і выпраўляе хібы
OpenAI запусціла ШІ-агента, які сам шукае і выпраўляе хібы
OpenAI запусціла ШІ-агента, які сам шукае і выпраўляе хібы
1 каментарый
Топ-мадэлі для кодынгу памыляюцца ў чвэрці выпадкаў — даследаванне
Топ-мадэлі для кодынгу памыляюцца ў чвэрці выпадкаў — даследаванне
Топ-мадэлі для кодынгу памыляюцца ў чвэрці выпадкаў — даследаванне
Кітайскі стартап прадставіў магутную мадэль для кодынгу, якая танней за GPT-5.5 і Gemini 3.1 Pro
Кітайскі стартап прадставіў магутную мадэль для кодынгу, якая танней за GPT-5.5 і Gemini 3.1 Pro
Кітайскі стартап прадставіў магутную мадэль для кодынгу, якая танней за GPT-5.5 і Gemini 3.1 Pro
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.