Support us

Grok 3 может быть не таким крутым: разработчика обвинили в подтасовке результатов теста

Сотрудник OpenAI Борис Пауэр обвинил компанию-разработчика ИИ xAI в публикации вводящих в заблуждение данных по тестированию их новой модели Grok 3.

Оставить комментарий
Grok 3 может быть не таким крутым: разработчика обвинили в подтасовке результатов теста

Сотрудник OpenAI Борис Пауэр обвинил компанию-разработчика ИИ xAI в публикации вводящих в заблуждение данных по тестированию их новой модели Grok 3.

xAI опубликовала график, демонстрирующий показатели Grok 3 в тесте AIME 2025 — сборнике сложных математических задач. Хотя некоторые эксперты ставят под сомнение валидность AIME как метода оценки, этот тест давно используется для проверки математических способностей моделей.

Источник: xAI.

График xAI показал, что две версии модели — Grok 3 Reasoning Beta и Grok 3 mini Reasoning — превосходят лучшую доступную модель OpenAI, o3-mini-high. Однако в OpenAI обратили внимание на то, что в графике отсутствует оценка o3-mini-high, полученная по методу «cons@64».

Этот метод подразумевает предоставление модели 64 попыток для решения каждой задачи, после чего в качестве окончательного ответа выбирается наиболее часто встречающийся результат, что значительно повышает итоговые баллы.

При сравнении первоначальных результатов («@1»), как оказалось, показатели Grok 3 ниже, а Grok 3 Reasoning Beta даже немного уступает модели o1 OpenAI при использовании средних вычислительных мощностей. Тем не менее xAI рекламирует Grok 3 как «самый умный в мире ИИ».

Соучредитель xAI Игорь Бабушкин заявил, что OpenAI сама в прошлом публиковала вводящие в заблуждение контрольные диаграммы, сравнивая производительность собственных моделей. 

ИИ-исследователь Нэйт Ламберт подчеркнул, что, пожалуй, самым важным, но пока остающимся в тени параметром, является вычислительная (и, соответственно, денежная) стоимость, которая потребовалась для каждой модели, чтобы достичь своего лучшего балла.

Чат-бот Маска заявил что он и Трамп заслуживают смертной казни
Чат-бот Маска заявил, что он и Трамп заслуживают смертной казни
По теме
Чат-бот Маска заявил, что он и Трамп заслуживают смертной казни
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
По теме
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех
По теме
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех
Читайте также
Профессор устал читать ИИ-работы студентов, устроил им ИИ-экзамен
Профессор устал читать ИИ-работы студентов, устроил им ИИ-экзамен
Профессор устал читать ИИ-работы студентов, устроил им ИИ-экзамен
В Codex появился «Max»-вариант модели GPT-5.2
В Codex появился «Max»-вариант модели GPT-5.2
В Codex появился «Max»-вариант модели GPT-5.2
Президент Anthropic говорит, что «общий ИИ» больше не актуален
Президент Anthropic говорит, что «общий ИИ» больше не актуален
Президент Anthropic говорит, что «общий ИИ» больше не актуален
Айтишник сделал Telegram-агента для общения со своей девушкой. Обучал на курсах для пикаперов
Айтишник сделал Telegram-агента для общения со своей девушкой. Обучал на курсах для пикаперов
Айтишник сделал Telegram-агента для общения со своей девушкой. Обучал на курсах для пикаперов
4 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.