Grok 3 может быть не таким крутым: разработчика обвинили в подтасовке результатов теста

Сотрудник OpenAI Борис Пауэр обвинил компанию-разработчика ИИ xAI в публикации вводящих в заблуждение данных по тестированию их новой модели Grok 3.

Оставить комментарий

xAI опубликовала график, демонстрирующий показатели Grok 3 в тесте AIME 2025 — сборнике сложных математических задач. Хотя некоторые эксперты ставят под сомнение валидность AIME как метода оценки, этот тест давно используется для проверки математических способностей моделей.

Источник: xAI.

График xAI показал, что две версии модели — Grok 3 Reasoning Beta и Grok 3 mini Reasoning — превосходят лучшую доступную модель OpenAI, o3-mini-high. Однако в OpenAI обратили внимание на то, что в графике отсутствует оценка o3-mini-high, полученная по методу «cons@64».

Этот метод подразумевает предоставление модели 64 попыток для решения каждой задачи, после чего в качестве окончательного ответа выбирается наиболее часто встречающийся результат, что значительно повышает итоговые баллы.

При сравнении первоначальных результатов («@1»), как оказалось, показатели Grok 3 ниже, а Grok 3 Reasoning Beta даже немного уступает модели o1 OpenAI при использовании средних вычислительных мощностей. Тем не менее xAI рекламирует Grok 3 как «самый умный в мире ИИ».

Соучредитель xAI Игорь Бабушкин заявил, что OpenAI сама в прошлом публиковала вводящие в заблуждение контрольные диаграммы, сравнивая производительность собственных моделей. 

ИИ-исследователь Нэйт Ламберт подчеркнул, что, пожалуй, самым важным, но пока остающимся в тени параметром, является вычислительная (и, соответственно, денежная) стоимость, которая потребовалась для каждой модели, чтобы достичь своего лучшего балла.

Чат-бот Маска заявил, что он и Трамп заслуживают смертной казни
По теме
Чат-бот Маска заявил, что он и Трамп заслуживают смертной казни
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
По теме
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех
По теме
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех

Читать на dev.by