Николай Чикишев world 26 верасня 2025, 12:31

GPT-5 і Claude Opus дасягнулі ўзроўню экспертаў у розных прафесіях

Вынікі новага бенчмарка OpenAI GDPval паказалі, што GPT-5 і Anthropic Claude Opus 4.1 параўнальныя па якасці з узроўнем экспертаў у шэрагу галін.

Пакінуць каментарый

Тэст ахоплівае дзевяць сектараў эканомікі ЗША, найбольш значных для ВУП, уключаючы аховy здароўя, фінансы, вытворчасць і дзяржкіраванне. У рамках GDPval-v0 мадэлі правяраліся на 44 прафесіях — ад інжынераў-праграмістаў і аналітыкаў да медсясцёр і журналістаў. Эксперты параўноўвалі справаздачы, падрыхтаваныя ШІ і прафесіяналамі, і выбіралі больш якасны.

Паводле дадзеных OpenAI, прасунутая версія GPT-5-high аказалася лепш або на ўзроўні спецыялістаў у 40,6% выпадкаў. Claude Opus 4.1 паказаў вынік 49%, аднак у кампаніі лічаць, што ў многім гэта звязана з яго «уменнем» ствараць візуальна прывабныя матэрыялы. Для параўнання: GPT-4o, выпушчаны ўсяго 15 месяцаў таму, набраў толькі 13,7%, што, па словах каманды OpenAI, дэманструе імклівы прагрэс.

Распрацоўшчыкі адзначаюць, што цяперашняя версія тэсту ахоплівае толькі абмежаваны набор задач, у асноўным звязаных з напісаннем справаздач. У рэальным жыцці прафесіі ўключаюць значна шырэйшы спектр абавязкаў, таму ў будучыні плануецца стварэнне больш комплексных версій GDPval, якія ўлічваюць інтэрактыўныя працоўныя працэсы.

Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код

Па тэме

Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код

З’явіўся індэкс ШІ-замяшчэння: праграмісты — першыя на чарзе

Па тэме

З’явіўся індэкс ШІ-замяшчэння: праграмісты — першыя на чарзе

ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць

Па тэме

ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць

Читать на dev.by