Топ-мадэлі для кодынгу памыляюцца ў чвэрці выпадкаў — даследаванне
Папулярныя ШІ-інструменты для праграмавання ўсё яшчэ дапускаюць сур’ёзныя памылкі і патрабуюць пастаяннага кантролю з боку распрацоўшчыкаў.
Папулярныя ШІ-інструменты для праграмавання ўсё яшчэ дапускаюць сур’ёзныя памылкі і патрабуюць пастаяннага кантролю з боку распрацоўшчыкаў.
Папулярныя ШІ-інструменты для праграмавання ўсё яшчэ дапускаюць сур’ёзныя памылкі і патрабуюць пастаяннага кантролю з боку распрацоўшчыкаў.
Да такой высновы прыйшлі даследчыкі Універсітэта Ватэрлоо, якія прадставілі вынікі новага бэнчмарка ў задачах генерацыі структураванага кода. У рамках даследавання навукоўцы пратэставалі 11 вялікіх моўных мадэляў на 44 заданнях, звязаных са стварэннем праграмных адказаў у строга зададзеных фарматах, уключаючы JSON, XML, Markdown і іншыя структураваныя схемы.
Вынікі паказалі, што нават самыя прасунутыя камерцыйныя мадэлі дасягаюць дакладнасці толькі каля 75%. Гэта азначае, што прыкладна адзін з чатырох адказаў аказваецца некарэктным з пункту гледжання структуры ці зместу. У open-source-мадэляў паказчыкі аказаліся яшчэ ніжэй — каля 65%.
Навукоўцы адзначаюць, што гаворка ідзе не толькі пра сінтаксічныя памылкі. Важным крытэрыем ацэнкі была здольнасць ШІ карэктна выконваць пастаўленую задачу і ствараць вынік, які можна без дадатковай перапрацоўкі ўбудаваць у рэальны рабочы працэс распрацоўкі.
Па словах суаўтара даследавання, аспіранта факультэта камп’ютарных навук Дангфу Цзяна, мадэлі адносна паспяхова спраўляюцца з задачамі, звязанымі з тэкставымі структурамі, аднак дэманструюць значна больш слабыя вынікі пры генерацыі кода для візуальных інтэрфейсаў, вэб-старонак ці мультымедыйных аплікацый.
Аўтары працы папярэджваюць, што шырокае ўкараненне аўтаномных ШІ-агентаў у распрацоўку праграмнага забеспячэння можа павялічыць тэхналагічныя рызыкі, калі кампаніі будуць спадзявацца на такія сістэмы без дастатковай праверкі вынікаў. Па іх ацэнцы, на бягучым этапе ШІ варта разглядаць перш за ўсё як інструмент павышэння прадуктыўнасці, а не як самастойнага распрацоўшчыка.

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.