Николай Чикишев 24 лютага 2025, 14:01

Grok 3 можа быць не такім крутым: распрацоўшчыка абвінавацілі ў падтасоўцы вынікаў тэсту

Супрацоўнік OpenAI Барыс Паўэр абвінаваціў кампанію-распрацоўшчыка АІ xAI у публікацыі даных па тэсціраванні іх новай мадэлі Grok 3, якія ўводзяць у зман.

Пакінуць каментарый

xAI апублікавала графік, які дэманструе паказчыкі Grok 3 у тэсце AIME 2025 — зборніку складаных матэматычных задач. Хоць некаторыя эксперты ставяць пад сумнеў валіднасць AIME як метаду ацэнкі, гэты тэст даўно выкарыстоўваецца для праверкі матэматычных здольнасцяў мадэляў.

Крыніца: xAI.

Графік XAI паказаў, што дзве версіі мадэлі — Grok 3 Reasoning Beta і Grok 3 mini Reasoning — пераўзыходзяць найлепшую даступную мадэль OpenAI, o3-mini-high. Аднак у OpenAI звярнулі ўвагу на тое, што ў графіку адсутнічае адзнака o3-mini-high, атрыманая па метадзе «cons@64».

Гэты метад мае на ўвазе даванне мадэлі 64 спробы для вырашэння кожнай задачы, пасля чаго ў якасці канчатковага адказу выбіраецца вынік, які сустракаецца найбольш часта, што значна павышае выніковыя балы.

Пры параўнанні першапачатковых вынікаў («@1»), як выявілася, паказчыкі Grok 3 ніжэйшыя, а Grok 3 Reasoning Beta нават трохі саступае мадэлі o1 OpenAI пры выкарыстанні сярэдніх вылічальных магутнасцяў. Тым не менш xAI рэкламуе Grok 3 як «самы разумны ў свеце АІ».

Сузаснавальнік хAI Ігар Бабушкін заявіў, што OpenAI сама раней публікавала кантрольныя дыяграмы, якія ўводзяць у зман, параўноўваючы прадукцыйнасць уласных мадэляў.

АІ-даследчык Нэйт Ламберт падкрэсліў, што, бадай, самым важным параметрам, які пакуль застаецца ў цені, з’яўляецца вылічальны (і, адпаведна, грашовы) кошт, які спатрэбіўся для кожнай мадэлі, каб дасягнуць свайго найлепшага бала.

Чат-бот Маска заявіў, што ён і Трамп заслугоўваюць смяротнага пакарання

Па тэме

Чат-бот Маска заявіў, што ён і Трамп заслугоўваюць смяротнага пакарання

Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek

По теме

Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek

«Пакуль серверы не расплавяцца»: Grok 3 стаў бясплатна даступны для ўсіх

Па тэме

«Пакуль серверы не расплавяцца»: Grok 3 стаў бясплатна даступны для ўсіх

Читать на dev.by