Дапамажыце dev.by 🤍
Падтрымаць

GPT-5 і Claude Opus дасягнулі ўзроўню экспертаў у розных прафесіях

Вынікі новага бенчмарка OpenAI GDPval паказалі, што GPT-5 і Anthropic Claude Opus 4.1 параўнальныя па якасці з узроўнем экспертаў у шэрагу галін.

Пакінуць каментарый
GPT-5 і Claude Opus дасягнулі ўзроўню экспертаў у розных прафесіях

Вынікі новага бенчмарка OpenAI GDPval паказалі, што GPT-5 і Anthropic Claude Opus 4.1 параўнальныя па якасці з узроўнем экспертаў у шэрагу галін.

Тэст ахоплівае дзевяць сектараў эканомікі ЗША, найбольш значных для ВУП, уключаючы аховy здароўя, фінансы, вытворчасць і дзяржкіраванне. У рамках GDPval-v0 мадэлі правяраліся на 44 прафесіях — ад інжынераў-праграмістаў і аналітыкаў да медсясцёр і журналістаў. Эксперты параўноўвалі справаздачы, падрыхтаваныя ШІ і прафесіяналамі, і выбіралі больш якасны.

Паводле дадзеных OpenAI, прасунутая версія GPT-5-high аказалася лепш або на ўзроўні спецыялістаў у 40,6% выпадкаў. Claude Opus 4.1 паказаў вынік 49%, аднак у кампаніі лічаць, што ў многім гэта звязана з яго «уменнем» ствараць візуальна прывабныя матэрыялы. Для параўнання: GPT-4o, выпушчаны ўсяго 15 месяцаў таму, набраў толькі 13,7%, што, па словах каманды OpenAI, дэманструе імклівы прагрэс.

Распрацоўшчыкі адзначаюць, што цяперашняя версія тэсту ахоплівае толькі абмежаваны набор задач, у асноўным звязаных з напісаннем справаздач. У рэальным жыцці прафесіі ўключаюць значна шырэйшы спектр абавязкаў, таму ў будучыні плануецца стварэнне больш комплексных версій GDPval, якія ўлічваюць інтэрактыўныя працоўныя працэсы.

Meta прэзентавала ШІ які не толькі піша але і «разумее» код
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Па тэме
Meta прэзентавала ШІ, які не толькі піша, але і «разумее» код
Зявіўся індэкс ШІ-замяшчэння: праграмісты — першыя на чарзе
З’явіўся індэкс ШІ-замяшчэння: праграмісты — першыя на чарзе
Па тэме
З’явіўся індэкс ШІ-замяшчэння: праграмісты — першыя на чарзе
ШІ кажа адно а робіць іншае. OpenAI не ведае як гэта спыніць
ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць
Па тэме
ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць
Чытайце таксама
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.