Дапамажыце dev.by 🤍
Падтрымаць

Grok 3 можа быць не такім крутым: распрацоўшчыка абвінавацілі ў падтасоўцы вынікаў тэсту

Супрацоўнік OpenAI Барыс Паўэр абвінаваціў кампанію-распрацоўшчыка АІ xAI у публікацыі даных па тэсціраванні іх новай мадэлі Grok 3, якія ўводзяць у зман.

Пакінуць каментарый
Grok 3 можа быць не такім крутым: распрацоўшчыка абвінавацілі ў падтасоўцы вынікаў тэсту

Супрацоўнік OpenAI Барыс Паўэр абвінаваціў кампанію-распрацоўшчыка АІ xAI у публікацыі даных па тэсціраванні іх новай мадэлі Grok 3, якія ўводзяць у зман.

xAI апублікавала графік, які дэманструе паказчыкі Grok 3 у тэсце AIME 2025 — зборніку складаных матэматычных задач. Хоць некаторыя эксперты ставяць пад сумнеў валіднасць AIME як метаду ацэнкі, гэты тэст даўно выкарыстоўваецца для праверкі матэматычных здольнасцяў мадэляў.

Крыніца: xAI.

Графік XAI паказаў, што дзве версіі мадэлі — Grok 3 Reasoning Beta і Grok 3 mini Reasoning — пераўзыходзяць найлепшую даступную мадэль OpenAI, o3-mini-high. Аднак у OpenAI звярнулі ўвагу на тое, што ў графіку адсутнічае адзнака o3-mini-high, атрыманая па метадзе «cons@64».

Гэты метад мае на ўвазе даванне мадэлі 64 спробы для вырашэння кожнай задачы, пасля чаго ў якасці канчатковага адказу выбіраецца вынік, які сустракаецца найбольш часта, што значна павышае выніковыя балы.

Пры параўнанні першапачатковых вынікаў («@1»), як выявілася, паказчыкі Grok 3 ніжэйшыя, а Grok 3 Reasoning Beta нават трохі саступае мадэлі o1 OpenAI пры выкарыстанні сярэдніх вылічальных магутнасцяў. Тым не менш xAI рэкламуе Grok 3 як «самы разумны ў свеце АІ».

Сузаснавальнік хAI Ігар Бабушкін заявіў, што OpenAI сама раней публікавала кантрольныя дыяграмы, якія ўводзяць у зман, параўноўваючы прадукцыйнасць уласных мадэляў. 

АІ-даследчык Нэйт Ламберт падкрэсліў, што, бадай, самым важным параметрам, які пакуль застаецца ў цені, з’яўляецца вылічальны (і, адпаведна, грашовы) кошт, які спатрэбіўся для кожнай мадэлі, каб дасягнуць свайго найлепшага бала.

Чат-бот Маска заявіў што ён і Трамп заслугоўваюць смяротнага пакарання
Чат-бот Маска заявіў, што ён і Трамп заслугоўваюць смяротнага пакарання
Па тэме
Чат-бот Маска заявіў, што ён і Трамп заслугоўваюць смяротнага пакарання
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
По теме
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
«Пакуль серверы не расплавяцца»: Grok 3 стаў бясплатна даступны для ўсіх
«Пакуль серверы не расплавяцца»: Grok 3 стаў бясплатна даступны для ўсіх
Па тэме
«Пакуль серверы не расплавяцца»: Grok 3 стаў бясплатна даступны для ўсіх

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.