Дапамажыце dev.by 🤍
Падтрымаць

OpenAI зманіла пра здольнасці сваёй найноўшай мадэлі?

Вакол новай мадэлі o3 ад OpenAI разгараецца дыскусія з-за значнай розніцы паміж заяўленымі кампаніяй вынікамі бенчмаркінгу на складаным матэматычным тэсце FrontierMath і вынікамі незалежнага тэставання.

Пакінуць каментарый
OpenAI зманіла пра здольнасці сваёй найноўшай мадэлі?

Вакол новай мадэлі o3 ад OpenAI разгараецца дыскусія з-за значнай розніцы паміж заяўленымі кампаніяй вынікамі бенчмаркінгу на складаным матэматычным тэсце FrontierMath і вынікамі незалежнага тэставання.

OpenAI у снежні мінулага года прэзентавала сваю мадэль o3, заявіўшы, што яна здольная правільна адказаць на крыху больш як чвэрць пытанняў з набору FrontierMath. Гэты вынік значна пераўзыходзіў паказчыкі канкурэнтаў, лепшы з якіх змог вырашыць усяго каля 2% задач. Марк Чэн, галоўны навуковы супрацоўнік OpenAI, падчас анлайн-трансляцыі адзначыў, што іх унутраныя тэсты ва ўмовах інтэнсіўных вылічальных рэсурсаў паказалі для o3 вынік вышэй за 25%.

Аднак эксперты выказалі здагадку, што гэты паказчык, верагодна, быў дасягнуты з выкарыстаннем версіі o3, якая патрабавала большых вылічальных магутнасцяў, чым мадэль, публічна выпушчаная OpenAI. Даследчы інстытут Epoch AI, які з’яўляецца распрацоўшчыкам FrontierMath, апублікаваў вынікі сваіх незалежных тэстаў o3 у пятніцу. Epoch AI выявіў, што мадэль паказала вынік каля 10%, што значна ніжэй за заяўлены OpenAI максімальны паказчык.

У апублікаваных кампаніяй у снежні выніках бенчмаркінгу таксама быў пазначаны і больш нізкі паказчык, які супадае з вынікам, атрыманым Epoch AI. Прадстаўнікі Epoch таксама адзначылі, што іх метадалогія тэставання, верагодна, адрозніваецца ад падыходу OpenAI, і што яны выкарыстоўвалі абноўленую версію FrontierMath для сваіх ацэнак.

«Розніца паміж нашымі вынікамі і вынікамі OpenAI можа быць звязаная з тым, што OpenAI праводзіла ацэнку з больш магутным унутраным каркасам, выкарыстоўваючы больш вылічальных рэсурсаў падчас тэставання, або таму, што гэтыя вынікі былі атрыманыя на іншым падмностве FrontierMath (180 задач у frontiermath-26.11.2024 супраць 290 задач у frontiermath-28.02.2025-private)», — гаворыцца ў заяве Epoch.

«Усе выпушчаныя вылічальныя ўзроўні o3 меншыя, чым версія, якую мы тэставалі», — адзначылі ў ARC Prize, арганізацыі, якая тэставала папярэднюю версію o3. Больш высокія вылічальныя ўзроўні звычайна дэманструюць лепшыя вынікі ў бенчмарках.

Вэнда Чжоу, супрацоўніца тэхнічнага аддзела OpenAI, падчас нядаўняй анлайн-трансляцыі заявіла, што o3, якая знаходзіцца ў вытворчасці, «больш аптымізаваная для рэальных сцэнараў выкарыстання» і хуткасці, у адрозненне ад версіі o3, прадэманстраванай у снежні. У выніку могуць назірацца «разыходжанні» ў выніках бенчмаркаў.

OpenAI знізіла кошты на новыя мадэлі ўдвая каб утрымаць распрацоўшчыкаў
OpenAI знізіла кошты на новыя мадэлі ўдвая, каб утрымаць распрацоўшчыкаў
Па тэме
OpenAI знізіла кошты на новыя мадэлі ўдвая, каб утрымаць распрацоўшчыкаў
Чытайце таксама
Распрацоўшчыкі пачалі прадаваць «псіхадэлікі» для чат-ботаў
Распрацоўшчыкі пачалі прадаваць «псіхадэлікі» для чат-ботаў
Распрацоўшчыкі пачалі прадаваць «псіхадэлікі» для чат-ботаў
OpenAI будзе працягваць уводзіць
OpenAI будзе працягваць уводзіць "чырвоны код" — СЕО кажа, гэта карысна
OpenAI будзе працягваць уводзіць "чырвоны код" — СЕО кажа, гэта карысна
2026 год стане паваротным для ШІ-індустрыі — прагноз
2026 год стане паваротным для ШІ-індустрыі — прагноз
2026 год стане паваротным для ШІ-індустрыі — прагноз
1 каментарый
GitHub замест ВНУ: як змяняюцца патрабаванні да кандыдатаў у ІТ
GitHub замест ВНУ: як змяняюцца патрабаванні да кандыдатаў у ІТ
GitHub замест ВНУ: як змяняюцца патрабаванні да кандыдатаў у ІТ

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.