Дапамажыце dev.by 🤍
Падтрымаць

Google прэзентавала «чалавечы» тэст для ацэнкі ШІ-кода

Даследчыкі Google DeepMind прэзентвалі новую сістэму Vibe Checker, якая ацэньвае код, створаны штучным інтэлектам, па стандартах, блізкіх да чалавечых.

Пакінуць каментарый
Google прэзентавала «чалавечы» тэст для ацэнкі ШІ-кода

Даследчыкі Google DeepMind прэзентвалі новую сістэму Vibe Checker, якая ацэньвае код, створаны штучным інтэлектам, па стандартах, блізкіх да чалавечых.

Па словах аўтараў даследавання, цяперашнія падыходы да ацэнкі ШІ-кода не адлюстроўваюць таго, што сапраўды важна для праграмістаў. Распрацоўшчыкі часта цэняць не толькі функцыянальную карэктнасць, але і такія аспекты, як апрацоўка памылак, чытальнасць і лагічная ўзгодненасць кода.

Каб ліквідаваць гэты разрыў, каманда DeepMind стварыла таксаномію VeriCode, якая ўключае 30 правераных правілаў, згрупаваных у пяць катэгорый: стыль і пагадненні, логіка і шаблоны, дакументацыя і каментарыі, апрацоўка памылак, а таксама праца з бібліятэкамі і API.

Кожная інструкцыя звязана з праверкай лінтэра і дазваляе наладжваць параметры — напрыклад, даўжыню радка, колькасць галінаванняў або стыль дакументацыі. Крыніца: Zhong і суаўт. Крыніца: Zhong et al.

Кожнае правіла VeriCode звязана з канкрэтнай праверкай лінтэра і дае адназначны вынік: пройдзена ці не пройдзена. На аснове гэтай сістэмы быў распрацаваны Vibe Checker — тэставае асяроддзе, якое пашырае існуючыя наборы BigCodeBench і LiveCodeBench. Яна змяшчае больш за дзве тысячы рэальных задач па праграмаванню.

Падчас выпрабаванняў даследчыкі пратэставалі 31 моўную мадэль з 10 розных сямействаў. Нават самыя прасунутыя сістэмы паказалі, што ім складана прытрымлівацца некалькіх інструкцый адначасова: пры пяці ўказаннях сярэдні паказчык паспяховасці знізіўся амаль на 6%. Акрамя таго, быў зафіксаваны эфект «страты сярэдзіны» — мадэлі горш выконваюць інструкцыі, размешчаныя ў сярэдзіне запыту.

Абодва метады правяраюць як функцыянальную карэктнасць кода, так і тое, наколькі дакладна ён адпавядае інструкцыям. Крыніца: Zhong et al.

Навукоўцы адзначылі, што падыход з паэтапным рэдагаваннем (multi-turn editing) дапамагае крыху палепшыць выкананне інструкцый, але пры гэтым пагаршае агульную функцыянальнасць кода. Пры параўнанні вынікаў Vibe Checker з больш чым 800 тысячамі чалавечых ацэнак з базы LMArena высветлілася, што спалучэнне двух фактараў — функцыянальнай карэктнасці і прытрымлівання інструкцый — нашмат лепш адлюстроўвае ўяўленне распрацоўшчыкаў аб «якасным» кодзе, чым любы з іх паасобку.

Аўтары даследавання лічаць, што высновы павінны змяніць падыход да навучання моўных мадэляў. Зараз большасць сістэм удасканальваюцца з дапамогай метаду Reinforcement Learning with Verifiable Rewards (RLVR), дзе асноўная ўвага надаецца праходжанню тэстаў. Выкарыстанне VeriCode дазволіць дадаць да працэсу навучання разуменне чалавечых крытэрыяў якасці: яснасці, структуры і логікі.

Нават лепшыя ШІ-мадэлі адчуваюць цяжкасці пры выкананні некалькіх інструкцый адначасова. Табліца паказвае паказчыкі прытрымлівання інструкцый (IF) на двух бенчмарках: светла-чырвоны колер азначае вынік ніжэй за 50%, цёмна-чырвоны — ніжэй за 30%. Крыніца: Zhong et al.

Google DeepMind плануе апублікаваць таксаномію VeriCode у адкрытым доступе і адаптаваць яе для іншых моў праграмавання. Даследчыкі ўпэўнены, што такія інструменты дапамогуць дакладней ацэньваць рэальныя магчымасці ШІ і зрабіць машынны код бліжэй да стандартаў прафесійнай распрацоўкі.

Распрацоўшчыкі губляюць кантроль над кодам створаным ШІ — меркаванне экспертаў
Распрацоўшчыкі губляюць кантроль над кодам, створаным ШІ — меркаванне экспертаў
Па тэме
Распрацоўшчыкі губляюць кантроль над кодам, створаным ШІ — меркаванне экспертаў
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
Па тэме
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
ШІ-рэдактар кода Cursor запусціў бясплатны курс для распрацоўшчыкаў
ШІ-рэдактар кода Cursor запусціў бясплатны курс для распрацоўшчыкаў
Па тэме
ШІ-рэдактар кода Cursor запусціў бясплатны курс для распрацоўшчыкаў
Чытайце таксама
Google абнавіла Nano Banana: генератар цяпер стварае постары і інфаграфіку
Google абнавіла Nano Banana: генератар цяпер стварае постары і інфаграфіку
Google абнавіла Nano Banana: генератар цяпер стварае постары і інфаграфіку
Торвальдс сказаў «так» вайб-кодзінгу. Але не на праектах
Торвальдс сказаў «так» вайб-кодзінгу. Але не на праектах
Торвальдс сказаў «так» вайб-кодзінгу. Але не на праектах
2 каментарыя
OpenAI прэзентавала ШІ-агента, які можа кадаваць суткамі
OpenAI прэзентавала ШІ-агента, які можа кадаваць суткамі
OpenAI прэзентавала ШІ-агента, які можа кадаваць суткамі
1 каментарый
Google прадставіла «забойцу ChatGPT» — Gemini 3 з бясплатнай прасторай для вайб-кодынгу
Google прадставіла «забойцу ChatGPT» — Gemini 3 з бясплатнай прасторай для вайб-кодынгу
Google прадставіла «забойцу ChatGPT» — Gemini 3 з бясплатнай прасторай для вайб-кодынгу

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.