Дапамажыце dev.by 🤍
Падтрымаць

GPT-5 і Claude Opus дасягнулі ўзроўню экспертаў у розных прафесіях

Вынікі новага бенчмарка OpenAI GDPval паказалі, што GPT-5 і Anthropic Claude Opus 4.1 параўнальныя па якасці з узроўнем экспертаў у шэрагу галін.

Пакінуць каментарый
GPT-5 і Claude Opus дасягнулі ўзроўню экспертаў у розных прафесіях

Вынікі новага бенчмарка OpenAI GDPval паказалі, што GPT-5 і Anthropic Claude Opus 4.1 параўнальныя па якасці з узроўнем экспертаў у шэрагу галін.

Тэст ахоплівае дзевяць сектараў эканомікі ЗША, найбольш значных для ВУП, уключаючы аховy здароўя, фінансы, вытворчасць і дзяржкіраванне. У рамках GDPval-v0 мадэлі правяраліся на 44 прафесіях — ад інжынераў-праграмістаў і аналітыкаў да медсясцёр і журналістаў. Эксперты параўноўвалі справаздачы, падрыхтаваныя ШІ і прафесіяналамі, і выбіралі больш якасны.

Паводле дадзеных OpenAI, прасунутая версія GPT-5-high аказалася лепш або на ўзроўні спецыялістаў у 40,6% выпадкаў. Claude Opus 4.1 паказаў вынік 49%, аднак у кампаніі лічаць, што ў многім гэта звязана з яго «уменнем» ствараць візуальна прывабныя матэрыялы. Для параўнання: GPT-4o, выпушчаны ўсяго 15 месяцаў таму, набраў толькі 13,7%, што, па словах каманды OpenAI, дэманструе імклівы прагрэс.

Распрацоўшчыкі адзначаюць, што цяперашняя версія тэсту ахоплівае толькі абмежаваны набор задач, у асноўным звязаных з напісаннем справаздач. У рэальным жыцці прафесіі ўключаюць значна шырэйшы спектр абавязкаў, таму ў будучыні плануецца стварэнне больш комплексных версій GDPval, якія ўлічваюць інтэрактыўныя працоўныя працэсы.

Meta прэзентавала ШІ які не толькі піша але і «разумее» код
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Па тэме
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Зявіўся індэкс ШІ-замяшчэння: праграмісты — першыя на чарзе
З’явіўся індэкс ШІ-замяшчэння: праграмісты — першыя на чарзе
Па тэме
З’явіўся індэкс ШІ-замяшчэння: праграмісты — першыя на чарзе
ШІ кажа адно а робіць іншае. OpenAI не ведае як гэта спыніць
ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць
Па тэме
ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць
Чытайце таксама
10 тысяч кампаній за пяцігодку: ААЭ хочуць ператварыць у ШІ-звышдзяржаву
10 тысяч кампаній за пяцігодку: ААЭ хочуць ператварыць у ШІ-звышдзяржаву
10 тысяч кампаній за пяцігодку: ААЭ хочуць ператварыць у ШІ-звышдзяржаву
4 каментарыя
Генератыўныя партрэты дапамагаюць кандыдатам пры найме
Генератыўныя партрэты дапамагаюць кандыдатам пры найме
Генератыўныя партрэты дапамагаюць кандыдатам пры найме
5 каментарыяў
Як казаць пра ШІ на сумоўі, каб вас узялі на працу
Як казаць пра ШІ на сумоўі, каб вас узялі на працу
Як казаць пра ШІ на сумоўі, каб вас узялі на працу
ШІ стаў зручным апраўданнем для масавых звальненняў
ШІ стаў зручным апраўданнем для масавых звальненняў
ШІ стаў зручным апраўданнем для масавых звальненняў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.