Дапамажыце dev.by 🤍
Падтрымаць

OpenAI зманіла пра здольнасці сваёй найноўшай мадэлі?

Вакол новай мадэлі o3 ад OpenAI разгараецца дыскусія з-за значнай розніцы паміж заяўленымі кампаніяй вынікамі бенчмаркінгу на складаным матэматычным тэсце FrontierMath і вынікамі незалежнага тэставання.

Пакінуць каментарый
OpenAI зманіла пра здольнасці сваёй найноўшай мадэлі?

Вакол новай мадэлі o3 ад OpenAI разгараецца дыскусія з-за значнай розніцы паміж заяўленымі кампаніяй вынікамі бенчмаркінгу на складаным матэматычным тэсце FrontierMath і вынікамі незалежнага тэставання.

OpenAI у снежні мінулага года прэзентавала сваю мадэль o3, заявіўшы, што яна здольная правільна адказаць на крыху больш як чвэрць пытанняў з набору FrontierMath. Гэты вынік значна пераўзыходзіў паказчыкі канкурэнтаў, лепшы з якіх змог вырашыць усяго каля 2% задач. Марк Чэн, галоўны навуковы супрацоўнік OpenAI, падчас анлайн-трансляцыі адзначыў, што іх унутраныя тэсты ва ўмовах інтэнсіўных вылічальных рэсурсаў паказалі для o3 вынік вышэй за 25%.

Аднак эксперты выказалі здагадку, што гэты паказчык, верагодна, быў дасягнуты з выкарыстаннем версіі o3, якая патрабавала большых вылічальных магутнасцяў, чым мадэль, публічна выпушчаная OpenAI. Даследчы інстытут Epoch AI, які з’яўляецца распрацоўшчыкам FrontierMath, апублікаваў вынікі сваіх незалежных тэстаў o3 у пятніцу. Epoch AI выявіў, што мадэль паказала вынік каля 10%, што значна ніжэй за заяўлены OpenAI максімальны паказчык.

У апублікаваных кампаніяй у снежні выніках бенчмаркінгу таксама быў пазначаны і больш нізкі паказчык, які супадае з вынікам, атрыманым Epoch AI. Прадстаўнікі Epoch таксама адзначылі, што іх метадалогія тэставання, верагодна, адрозніваецца ад падыходу OpenAI, і што яны выкарыстоўвалі абноўленую версію FrontierMath для сваіх ацэнак.

«Розніца паміж нашымі вынікамі і вынікамі OpenAI можа быць звязаная з тым, што OpenAI праводзіла ацэнку з больш магутным унутраным каркасам, выкарыстоўваючы больш вылічальных рэсурсаў падчас тэставання, або таму, што гэтыя вынікі былі атрыманыя на іншым падмностве FrontierMath (180 задач у frontiermath-26.11.2024 супраць 290 задач у frontiermath-28.02.2025-private)», — гаворыцца ў заяве Epoch.

«Усе выпушчаныя вылічальныя ўзроўні o3 меншыя, чым версія, якую мы тэставалі», — адзначылі ў ARC Prize, арганізацыі, якая тэставала папярэднюю версію o3. Больш высокія вылічальныя ўзроўні звычайна дэманструюць лепшыя вынікі ў бенчмарках.

Вэнда Чжоу, супрацоўніца тэхнічнага аддзела OpenAI, падчас нядаўняй анлайн-трансляцыі заявіла, што o3, якая знаходзіцца ў вытворчасці, «больш аптымізаваная для рэальных сцэнараў выкарыстання» і хуткасці, у адрозненне ад версіі o3, прадэманстраванай у снежні. У выніку могуць назірацца «разыходжанні» ў выніках бенчмаркаў.

OpenAI знізіла кошты на новыя мадэлі ўдвая каб утрымаць распрацоўшчыкаў
OpenAI знізіла кошты на новыя мадэлі ўдвая, каб утрымаць распрацоўшчыкаў
Па тэме
OpenAI знізіла кошты на новыя мадэлі ўдвая, каб утрымаць распрацоўшчыкаў
Чытайце таксама
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity. 
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.