GPT-5 і Claude Opus дасягнулі ўзроўню экспертаў у розных прафесіях

Вынікі новага бенчмарка OpenAI GDPval паказалі, што GPT-5 і Anthropic Claude Opus 4.1 параўнальныя па якасці з узроўнем экспертаў у шэрагу галін.

Пакінуць каментарый

Тэст ахоплівае дзевяць сектараў эканомікі ЗША, найбольш значных для ВУП, уключаючы аховy здароўя, фінансы, вытворчасць і дзяржкіраванне. У рамках GDPval-v0 мадэлі правяраліся на 44 прафесіях — ад інжынераў-праграмістаў і аналітыкаў да медсясцёр і журналістаў. Эксперты параўноўвалі справаздачы, падрыхтаваныя ШІ і прафесіяналамі, і выбіралі больш якасны.

Паводле дадзеных OpenAI, прасунутая версія GPT-5-high аказалася лепш або на ўзроўні спецыялістаў у 40,6% выпадкаў. Claude Opus 4.1 паказаў вынік 49%, аднак у кампаніі лічаць, што ў многім гэта звязана з яго «уменнем» ствараць візуальна прывабныя матэрыялы. Для параўнання: GPT-4o, выпушчаны ўсяго 15 месяцаў таму, набраў толькі 13,7%, што, па словах каманды OpenAI, дэманструе імклівы прагрэс.

Распрацоўшчыкі адзначаюць, што цяперашняя версія тэсту ахоплівае толькі абмежаваны набор задач, у асноўным звязаных з напісаннем справаздач. У рэальным жыцці прафесіі ўключаюць значна шырэйшы спектр абавязкаў, таму ў будучыні плануецца стварэнне больш комплексных версій GDPval, якія ўлічваюць інтэрактыўныя працоўныя працэсы.

Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Па тэме
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
З’явіўся індэкс ШІ-замяшчэння: праграмісты — першыя на чарзе
Па тэме
З’явіўся індэкс ШІ-замяшчэння: праграмісты — першыя на чарзе
ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць
Па тэме
ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць

Читать на dev.by