Grok 3 можа быць не такім крутым: распрацоўшчыка абвінавацілі ў падтасоўцы вынікаў тэсту
Супрацоўнік OpenAI Барыс Паўэр абвінаваціў кампанію-распрацоўшчыка АІ xAI у публікацыі даных па тэсціраванні іх новай мадэлі Grok 3, якія ўводзяць у зман.
xAI апублікавала графік, які дэманструе паказчыкі Grok 3 у тэсце AIME 2025 — зборніку складаных матэматычных задач. Хоць некаторыя эксперты ставяць пад сумнеў валіднасць AIME як метаду ацэнкі, гэты тэст даўно выкарыстоўваецца для праверкі матэматычных здольнасцяў мадэляў.
Графік XAI паказаў, што дзве версіі мадэлі — Grok 3 Reasoning Beta і Grok 3 mini Reasoning — пераўзыходзяць найлепшую даступную мадэль OpenAI, o3-mini-high. Аднак у OpenAI звярнулі ўвагу на тое, што ў графіку адсутнічае адзнака o3-mini-high, атрыманая па метадзе «cons@64».
Гэты метад мае на ўвазе даванне мадэлі 64 спробы для вырашэння кожнай задачы, пасля чаго ў якасці канчатковага адказу выбіраецца вынік, які сустракаецца найбольш часта, што значна павышае выніковыя балы.
Пры параўнанні першапачатковых вынікаў («@1»), як выявілася, паказчыкі Grok 3 ніжэйшыя, а Grok 3 Reasoning Beta нават трохі саступае мадэлі o1 OpenAI пры выкарыстанні сярэдніх вылічальных магутнасцяў. Тым не менш xAI рэкламуе Grok 3 як «самы разумны ў свеце АІ».
Сузаснавальнік хAI Ігар Бабушкін заявіў, што OpenAI сама раней публікавала кантрольныя дыяграмы, якія ўводзяць у зман, параўноўваючы прадукцыйнасць уласных мадэляў.
АІ-даследчык Нэйт Ламберт падкрэсліў, што, бадай, самым важным параметрам, які пакуль застаецца ў цені, з’яўляецца вылічальны (і, адпаведна, грашовы) кошт, які спатрэбіўся для кожнай мадэлі, каб дасягнуць свайго найлепшага бала.
Читать на dev.by