Support us

Grok 3 может быть не таким крутым: разработчика обвинили в подтасовке результатов теста

Сотрудник OpenAI Борис Пауэр обвинил компанию-разработчика ИИ xAI в публикации вводящих в заблуждение данных по тестированию их новой модели Grok 3.

Оставить комментарий
Grok 3 может быть не таким крутым: разработчика обвинили в подтасовке результатов теста

Сотрудник OpenAI Борис Пауэр обвинил компанию-разработчика ИИ xAI в публикации вводящих в заблуждение данных по тестированию их новой модели Grok 3.

xAI опубликовала график, демонстрирующий показатели Grok 3 в тесте AIME 2025 — сборнике сложных математических задач. Хотя некоторые эксперты ставят под сомнение валидность AIME как метода оценки, этот тест давно используется для проверки математических способностей моделей.

Источник: xAI.

График xAI показал, что две версии модели — Grok 3 Reasoning Beta и Grok 3 mini Reasoning — превосходят лучшую доступную модель OpenAI, o3-mini-high. Однако в OpenAI обратили внимание на то, что в графике отсутствует оценка o3-mini-high, полученная по методу «cons@64».

Этот метод подразумевает предоставление модели 64 попыток для решения каждой задачи, после чего в качестве окончательного ответа выбирается наиболее часто встречающийся результат, что значительно повышает итоговые баллы.

При сравнении первоначальных результатов («@1»), как оказалось, показатели Grok 3 ниже, а Grok 3 Reasoning Beta даже немного уступает модели o1 OpenAI при использовании средних вычислительных мощностей. Тем не менее xAI рекламирует Grok 3 как «самый умный в мире ИИ».

Соучредитель xAI Игорь Бабушкин заявил, что OpenAI сама в прошлом публиковала вводящие в заблуждение контрольные диаграммы, сравнивая производительность собственных моделей. 

ИИ-исследователь Нэйт Ламберт подчеркнул, что, пожалуй, самым важным, но пока остающимся в тени параметром, является вычислительная (и, соответственно, денежная) стоимость, которая потребовалась для каждой модели, чтобы достичь своего лучшего балла.

Чат-бот Маска заявил что он и Трамп заслуживают смертной казни
Чат-бот Маска заявил, что он и Трамп заслуживают смертной казни
По теме
Чат-бот Маска заявил, что он и Трамп заслуживают смертной казни
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
По теме
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех
По теме
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех
Читайте также
Эра чат-ботов на исходе: Nvidia представила первые чипы для автономных ИИ-агентов и ПК для работы с ними
Эра чат-ботов на исходе: Nvidia представила первые чипы для автономных ИИ-агентов и ПК для работы с ними
Эра чат-ботов на исходе: Nvidia представила первые чипы для автономных ИИ-агентов и ПК для работы с ними
«Они говорят это уже 20 лет»: профессор MIT усомнился, что ИИ — настоящая причина увольнений в ИТ
«Они говорят это уже 20 лет»: профессор MIT усомнился, что ИИ — настоящая причина увольнений в ИТ
«Они говорят это уже 20 лет»: профессор MIT усомнился, что ИИ — настоящая причина увольнений в ИТ
Программисты привыкли к ИИ настолько, что отказываются кодить без него
Программисты привыкли к ИИ настолько, что отказываются кодить без него
Программисты привыкли к ИИ настолько, что отказываются кодить без него
Codex научился управлять компьютерами на Windows — следить за ним можно со смартфона
Codex научился управлять компьютерами на Windows — следить за ним можно со смартфона
Codex научился управлять компьютерами на Windows — следить за ним можно со смартфона

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.