OpenAI зманіла пра здольнасці сваёй найноўшай мадэлі?
Вакол новай мадэлі o3 ад OpenAI разгараецца дыскусія з-за значнай розніцы паміж заяўленымі кампаніяй вынікамі бенчмаркінгу на складаным матэматычным тэсце FrontierMath і вынікамі незалежнага тэставання.
Вакол новай мадэлі o3 ад OpenAI разгараецца дыскусія з-за значнай розніцы паміж заяўленымі кампаніяй вынікамі бенчмаркінгу на складаным матэматычным тэсце FrontierMath і вынікамі незалежнага тэставання.
OpenAI у снежні мінулага года прэзентавала сваю мадэль o3, заявіўшы, што яна здольная правільна адказаць на крыху больш як чвэрць пытанняў з набору FrontierMath. Гэты вынік значна пераўзыходзіў паказчыкі канкурэнтаў, лепшы з якіх змог вырашыць усяго каля 2% задач. Марк Чэн, галоўны навуковы супрацоўнік OpenAI, падчас анлайн-трансляцыі адзначыў, што іх унутраныя тэсты ва ўмовах інтэнсіўных вылічальных рэсурсаў паказалі для o3 вынік вышэй за 25%.
Аднак эксперты выказалі здагадку, што гэты паказчык, верагодна, быў дасягнуты з выкарыстаннем версіі o3, якая патрабавала большых вылічальных магутнасцяў, чым мадэль, публічна выпушчаная OpenAI. Даследчы інстытут Epoch AI, які з’яўляецца распрацоўшчыкам FrontierMath, апублікаваў вынікі сваіх незалежных тэстаў o3 у пятніцу. Epoch AI выявіў, што мадэль паказала вынік каля 10%, што значна ніжэй за заяўлены OpenAI максімальны паказчык.
У апублікаваных кампаніяй у снежні выніках бенчмаркінгу таксама быў пазначаны і больш нізкі паказчык, які супадае з вынікам, атрыманым Epoch AI. Прадстаўнікі Epoch таксама адзначылі, што іх метадалогія тэставання, верагодна, адрозніваецца ад падыходу OpenAI, і што яны выкарыстоўвалі абноўленую версію FrontierMath для сваіх ацэнак.
«Розніца паміж нашымі вынікамі і вынікамі OpenAI можа быць звязаная з тым, што OpenAI праводзіла ацэнку з больш магутным унутраным каркасам, выкарыстоўваючы больш вылічальных рэсурсаў падчас тэставання, або таму, што гэтыя вынікі былі атрыманыя на іншым падмностве FrontierMath (180 задач у frontiermath-26.11.2024 супраць 290 задач у frontiermath-28.02.2025-private)», — гаворыцца ў заяве Epoch.
«Усе выпушчаныя вылічальныя ўзроўні o3 меншыя, чым версія, якую мы тэставалі», — адзначылі ў ARC Prize, арганізацыі, якая тэставала папярэднюю версію o3. Больш высокія вылічальныя ўзроўні звычайна дэманструюць лепшыя вынікі ў бенчмарках.
Вэнда Чжоу, супрацоўніца тэхнічнага аддзела OpenAI, падчас нядаўняй анлайн-трансляцыі заявіла, што o3, якая знаходзіцца ў вытворчасці, «больш аптымізаваная для рэальных сцэнараў выкарыстання» і хуткасці, у адрозненне ад версіі o3, прадэманстраванай у снежні. У выніку могуць назірацца «разыходжанні» ў выніках бенчмаркаў.
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.