Дапамажыце dev.by 🤍
Падтрымаць

Google прэзентавала «чалавечы» тэст для ацэнкі ШІ-кода

Даследчыкі Google DeepMind прэзентвалі новую сістэму Vibe Checker, якая ацэньвае код, створаны штучным інтэлектам, па стандартах, блізкіх да чалавечых.

Пакінуць каментарый
Google прэзентавала «чалавечы» тэст для ацэнкі ШІ-кода

Даследчыкі Google DeepMind прэзентвалі новую сістэму Vibe Checker, якая ацэньвае код, створаны штучным інтэлектам, па стандартах, блізкіх да чалавечых.

Па словах аўтараў даследавання, цяперашнія падыходы да ацэнкі ШІ-кода не адлюстроўваюць таго, што сапраўды важна для праграмістаў. Распрацоўшчыкі часта цэняць не толькі функцыянальную карэктнасць, але і такія аспекты, як апрацоўка памылак, чытальнасць і лагічная ўзгодненасць кода.

Каб ліквідаваць гэты разрыў, каманда DeepMind стварыла таксаномію VeriCode, якая ўключае 30 правераных правілаў, згрупаваных у пяць катэгорый: стыль і пагадненні, логіка і шаблоны, дакументацыя і каментарыі, апрацоўка памылак, а таксама праца з бібліятэкамі і API.

Кожная інструкцыя звязана з праверкай лінтэра і дазваляе наладжваць параметры — напрыклад, даўжыню радка, колькасць галінаванняў або стыль дакументацыі. Крыніца: Zhong і суаўт. Крыніца: Zhong et al.

Кожнае правіла VeriCode звязана з канкрэтнай праверкай лінтэра і дае адназначны вынік: пройдзена ці не пройдзена. На аснове гэтай сістэмы быў распрацаваны Vibe Checker — тэставае асяроддзе, якое пашырае існуючыя наборы BigCodeBench і LiveCodeBench. Яна змяшчае больш за дзве тысячы рэальных задач па праграмаванню.

Падчас выпрабаванняў даследчыкі пратэставалі 31 моўную мадэль з 10 розных сямействаў. Нават самыя прасунутыя сістэмы паказалі, што ім складана прытрымлівацца некалькіх інструкцый адначасова: пры пяці ўказаннях сярэдні паказчык паспяховасці знізіўся амаль на 6%. Акрамя таго, быў зафіксаваны эфект «страты сярэдзіны» — мадэлі горш выконваюць інструкцыі, размешчаныя ў сярэдзіне запыту.

Абодва метады правяраюць як функцыянальную карэктнасць кода, так і тое, наколькі дакладна ён адпавядае інструкцыям. Крыніца: Zhong et al.

Навукоўцы адзначылі, што падыход з паэтапным рэдагаваннем (multi-turn editing) дапамагае крыху палепшыць выкананне інструкцый, але пры гэтым пагаршае агульную функцыянальнасць кода. Пры параўнанні вынікаў Vibe Checker з больш чым 800 тысячамі чалавечых ацэнак з базы LMArena высветлілася, што спалучэнне двух фактараў — функцыянальнай карэктнасці і прытрымлівання інструкцый — нашмат лепш адлюстроўвае ўяўленне распрацоўшчыкаў аб «якасным» кодзе, чым любы з іх паасобку.

Аўтары даследавання лічаць, што высновы павінны змяніць падыход да навучання моўных мадэляў. Зараз большасць сістэм удасканальваюцца з дапамогай метаду Reinforcement Learning with Verifiable Rewards (RLVR), дзе асноўная ўвага надаецца праходжанню тэстаў. Выкарыстанне VeriCode дазволіць дадаць да працэсу навучання разуменне чалавечых крытэрыяў якасці: яснасці, структуры і логікі.

Нават лепшыя ШІ-мадэлі адчуваюць цяжкасці пры выкананні некалькіх інструкцый адначасова. Табліца паказвае паказчыкі прытрымлівання інструкцый (IF) на двух бенчмарках: светла-чырвоны колер азначае вынік ніжэй за 50%, цёмна-чырвоны — ніжэй за 30%. Крыніца: Zhong et al.

Google DeepMind плануе апублікаваць таксаномію VeriCode у адкрытым доступе і адаптаваць яе для іншых моў праграмавання. Даследчыкі ўпэўнены, што такія інструменты дапамогуць дакладней ацэньваць рэальныя магчымасці ШІ і зрабіць машынны код бліжэй да стандартаў прафесійнай распрацоўкі.

Распрацоўшчыкі губляюць кантроль над кодам створаным ШІ — меркаванне экспертаў
Распрацоўшчыкі губляюць кантроль над кодам, створаным ШІ — меркаванне экспертаў
Па тэме
Распрацоўшчыкі губляюць кантроль над кодам, створаным ШІ — меркаванне экспертаў
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
Па тэме
«Лепшы ў свеце ШІ для кодынгу» ад Anthropic працуе аўтаномна да 30 гадзін
ШІ-рэдактар кода Cursor запусціў бясплатны курс для распрацоўшчыкаў
ШІ-рэдактар кода Cursor запусціў бясплатны курс для распрацоўшчыкаў
Па тэме
ШІ-рэдактар кода Cursor запусціў бясплатны курс для распрацоўшчыкаў
Чытайце таксама
13 курсов по программированию на C++
13 курсов по программированию на C++
13 курсов по программированию на C++
С++, несмотря на свой солидный возраст, продолжает оставаться одним из самых популярных языков программирования с широкой сферой применения: от разработки ПО до создания игр. В сети можно найти достаточно ресурсов, которые помогут освоить этот язык. Мы предлагаем обратить внимание на подборку, подготовленную Digitaldefynd и дополненную нами. В ней собраны как бесплатные, так и платные ресурсы для людей с разным уровнем подготовки и знаний С++.
1 каментарый
10+ сертификаций Coursera, которые помогут улучшить резюме и повысить зарплату
10+ сертификаций Coursera, которые помогут улучшить резюме и повысить зарплату
10+ сертификаций Coursera, которые помогут улучшить резюме и повысить зарплату
Бюджетный способ прокачать навыки и повысить зарплату — это профессиональный сертификат от Google, IBM или крупного зарубежного университета. На Coursera как раз можно найти десятки полезных обучающих программ по машинному обучению, проджект-менеджменту и не только. Собрали 10+ сертификаций, которые будут выигрышно смотреться в резюме как новичка, так и опытного специалиста.
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
На платформе Coursera можно найти сотни курсов от крупных корпораций, включая Google, Amazon и HubSpot. Это отличная возможность начать новую карьеру, повысить квалификацию и просто получить плюс в профессиональную карму. Мы собрали 10 программ от ИТ-компаний, которые помогут освоить машинное обучение, UX-дизайн, продакт-менеджмент, кибербезопасность и многое другое.
DataCamp открывает безлимитный доступ к курсам за $139 в год
DataCamp открывает безлимитный доступ к курсам за $139 в год
DataCamp открывает безлимитный доступ к курсам за $139 в год

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.