Николай Чикишев world 21 красавіка 2025, 11:17

OpenAI зманіла пра здольнасці сваёй найноўшай мадэлі?

Вакол новай мадэлі o3 ад OpenAI разгараецца дыскусія з-за значнай розніцы паміж заяўленымі кампаніяй вынікамі бенчмаркінгу на складаным матэматычным тэсце FrontierMath і вынікамі незалежнага тэставання.

Пакінуць каментарый

OpenAI зманіла пра здольнасці сваёй найноўшай мадэлі?

Вакол новай мадэлі o3 ад OpenAI разгараецца дыскусія з-за значнай розніцы паміж заяўленымі кампаніяй вынікамі бенчмаркінгу на складаным матэматычным тэсце FrontierMath і вынікамі незалежнага тэставання.

OpenAI у снежні мінулага года прэзентавала сваю мадэль o3, заявіўшы, што яна здольная правільна адказаць на крыху больш як чвэрць пытанняў з набору FrontierMath. Гэты вынік значна пераўзыходзіў паказчыкі канкурэнтаў, лепшы з якіх змог вырашыць усяго каля 2% задач. Марк Чэн, галоўны навуковы супрацоўнік OpenAI, падчас анлайн-трансляцыі адзначыў, што іх унутраныя тэсты ва ўмовах інтэнсіўных вылічальных рэсурсаў паказалі для o3 вынік вышэй за 25%.

Аднак эксперты выказалі здагадку, што гэты паказчык, верагодна, быў дасягнуты з выкарыстаннем версіі o3, якая патрабавала большых вылічальных магутнасцяў, чым мадэль, публічна выпушчаная OpenAI. Даследчы інстытут Epoch AI, які з’яўляецца распрацоўшчыкам FrontierMath, апублікаваў вынікі сваіх незалежных тэстаў o3 у пятніцу. Epoch AI выявіў, што мадэль паказала вынік каля 10%, што значна ніжэй за заяўлены OpenAI максімальны паказчык.

У апублікаваных кампаніяй у снежні выніках бенчмаркінгу таксама быў пазначаны і больш нізкі паказчык, які супадае з вынікам, атрыманым Epoch AI. Прадстаўнікі Epoch таксама адзначылі, што іх метадалогія тэставання, верагодна, адрозніваецца ад падыходу OpenAI, і што яны выкарыстоўвалі абноўленую версію FrontierMath для сваіх ацэнак.

«Розніца паміж нашымі вынікамі і вынікамі OpenAI можа быць звязаная з тым, што OpenAI праводзіла ацэнку з больш магутным унутраным каркасам, выкарыстоўваючы больш вылічальных рэсурсаў падчас тэставання, або таму, што гэтыя вынікі былі атрыманыя на іншым падмностве FrontierMath (180 задач у frontiermath-26.11.2024 супраць 290 задач у frontiermath-28.02.2025-private)», — гаворыцца ў заяве Epoch.

«Усе выпушчаныя вылічальныя ўзроўні o3 меншыя, чым версія, якую мы тэставалі», — адзначылі ў ARC Prize, арганізацыі, якая тэставала папярэднюю версію o3. Больш высокія вылічальныя ўзроўні звычайна дэманструюць лепшыя вынікі ў бенчмарках.

Вэнда Чжоу, супрацоўніца тэхнічнага аддзела OpenAI, падчас нядаўняй анлайн-трансляцыі заявіла, што o3, якая знаходзіцца ў вытворчасці, «больш аптымізаваная для рэальных сцэнараў выкарыстання» і хуткасці, у адрозненне ад версіі o3, прадэманстраванай у снежні. У выніку могуць назірацца «разыходжанні» ў выніках бенчмаркаў.