Дапамажыце dev.by 🤍
Падтрымаць

Топ-мадэлі для кодынгу памыляюцца ў чвэрці выпадкаў — даследаванне

Папулярныя ШІ-інструменты для праграмавання ўсё яшчэ дапускаюць сур’ёзныя памылкі і патрабуюць пастаяннага кантролю з боку распрацоўшчыкаў.

Пакінуць каментарый
Топ-мадэлі для кодынгу памыляюцца ў чвэрці выпадкаў — даследаванне

Папулярныя ШІ-інструменты для праграмавання ўсё яшчэ дапускаюць сур’ёзныя памылкі і патрабуюць пастаяннага кантролю з боку распрацоўшчыкаў.

Да такой высновы прыйшлі даследчыкі Універсітэта Ватэрлоо, якія прадставілі вынікі новага бэнчмарка ў задачах генерацыі структураванага кода. У рамках даследавання навукоўцы пратэставалі 11 вялікіх моўных мадэляў на 44 заданнях, звязаных са стварэннем праграмных адказаў у строга зададзеных фарматах, уключаючы JSON, XML, Markdown і іншыя структураваныя схемы.

Вынікі паказалі, што нават самыя прасунутыя камерцыйныя мадэлі дасягаюць дакладнасці толькі каля 75%. Гэта азначае, што прыкладна адзін з чатырох адказаў аказваецца некарэктным з пункту гледжання структуры ці зместу. У open-source-мадэляў паказчыкі аказаліся яшчэ ніжэй — каля 65%.

Навукоўцы адзначаюць, што гаворка ідзе не толькі пра сінтаксічныя памылкі. Важным крытэрыем ацэнкі была здольнасць ШІ карэктна выконваць пастаўленую задачу і ствараць вынік, які можна без дадатковай перапрацоўкі ўбудаваць у рэальны рабочы працэс распрацоўкі.

Па словах суаўтара даследавання, аспіранта факультэта камп’ютарных навук Дангфу Цзяна, мадэлі адносна паспяхова спраўляюцца з задачамі, звязанымі з тэкставымі структурамі, аднак дэманструюць значна больш слабыя вынікі пры генерацыі кода для візуальных інтэрфейсаў, вэб-старонак ці мультымедыйных аплікацый.

Аўтары працы папярэджваюць, што шырокае ўкараненне аўтаномных ШІ-агентаў у распрацоўку праграмнага забеспячэння можа павялічыць тэхналагічныя рызыкі, калі кампаніі будуць спадзявацца на такія сістэмы без дастатковай праверкі вынікаў. Па іх ацэнцы, на бягучым этапе ШІ варта разглядаць перш за ўсё як інструмент павышэння прадуктыўнасці, а не як самастойнага распрацоўшчыка.

Пералом у праграмаванні адбыўся за 2 апошніх месяца — аўтар «вайб-кодынга»
Пералом у праграмаванні адбыўся за 2 апошніх месяца — аўтар «вайб-кодынга»
Па тэме
Пералом у праграмаванні адбыўся за 2 апошніх месяца — аўтар «вайб-кодынга»
Чытайце таксама
ШІ змяняе рынак працы, але да замены людзей яшчэ далёка — даследаванне
ШІ змяняе рынак працы, але да замены людзей яшчэ далёка — даследаванне
ШІ змяняе рынак працы, але да замены людзей яшчэ далёка — даследаванне
ШІ-інжынер не пісаў код уручную ўжо некалькі месяцаў. Падзяліўся адчуваннямі
ШІ-інжынер не пісаў код уручную ўжо некалькі месяцаў. Падзяліўся адчуваннямі
ШІ-інжынер не пісаў код уручную ўжо некалькі месяцаў. Падзяліўся адчуваннямі
Claude Code навучыўся сам выконваць задачы за праграміста
Claude Code навучыўся сам выконваць задачы за праграміста
Claude Code навучыўся сам выконваць задачы за праграміста
«Прыбяры сябе як вузкае месца»: аўтар «вайб-кодынгу» заявіў пра новую ролю людзей у ШІ-распрацоўцы
«Прыбяры сябе як вузкае месца»: аўтар «вайб-кодынгу» заявіў пра новую ролю людзей у ШІ-распрацоўцы
«Прыбяры сябе як вузкае месца»: аўтар «вайб-кодынгу» заявіў пра новую ролю людзей у ШІ-распрацоўцы
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.