Дапамажыце dev.by 🤍
Падтрымаць

GPT-5 і Claude Opus дасягнулі ўзроўню экспертаў у розных прафесіях

Вынікі новага бенчмарка OpenAI GDPval паказалі, што GPT-5 і Anthropic Claude Opus 4.1 параўнальныя па якасці з узроўнем экспертаў у шэрагу галін.

Пакінуць каментарый
GPT-5 і Claude Opus дасягнулі ўзроўню экспертаў у розных прафесіях

Вынікі новага бенчмарка OpenAI GDPval паказалі, што GPT-5 і Anthropic Claude Opus 4.1 параўнальныя па якасці з узроўнем экспертаў у шэрагу галін.

Тэст ахоплівае дзевяць сектараў эканомікі ЗША, найбольш значных для ВУП, уключаючы аховy здароўя, фінансы, вытворчасць і дзяржкіраванне. У рамках GDPval-v0 мадэлі правяраліся на 44 прафесіях — ад інжынераў-праграмістаў і аналітыкаў да медсясцёр і журналістаў. Эксперты параўноўвалі справаздачы, падрыхтаваныя ШІ і прафесіяналамі, і выбіралі больш якасны.

Паводле дадзеных OpenAI, прасунутая версія GPT-5-high аказалася лепш або на ўзроўні спецыялістаў у 40,6% выпадкаў. Claude Opus 4.1 паказаў вынік 49%, аднак у кампаніі лічаць, што ў многім гэта звязана з яго «уменнем» ствараць візуальна прывабныя матэрыялы. Для параўнання: GPT-4o, выпушчаны ўсяго 15 месяцаў таму, набраў толькі 13,7%, што, па словах каманды OpenAI, дэманструе імклівы прагрэс.

Распрацоўшчыкі адзначаюць, што цяперашняя версія тэсту ахоплівае толькі абмежаваны набор задач, у асноўным звязаных з напісаннем справаздач. У рэальным жыцці прафесіі ўключаюць значна шырэйшы спектр абавязкаў, таму ў будучыні плануецца стварэнне больш комплексных версій GDPval, якія ўлічваюць інтэрактыўныя працоўныя працэсы.

Meta прэзентавала ШІ які не толькі піша але і «разумее» код
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Па тэме
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Зявіўся індэкс ШІ-замяшчэння: праграмісты — першыя на чарзе
З’явіўся індэкс ШІ-замяшчэння: праграмісты — першыя на чарзе
Па тэме
З’явіўся індэкс ШІ-замяшчэння: праграмісты — першыя на чарзе
ШІ кажа адно а робіць іншае. OpenAI не ведае як гэта спыніць
ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць
Па тэме
ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць
Чытайце таксама
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
1 каментарый
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ можна ўзламаць, напісаўшы промпт у вершах

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.