Как помочь редакции делать еще больше полезного контента?
Support us

Grok 3 может быть не таким крутым: разработчика обвинили в подтасовке результатов теста

Сотрудник OpenAI Борис Пауэр обвинил компанию-разработчика ИИ xAI в публикации вводящих в заблуждение данных по тестированию их новой модели Grok 3.

Оставить комментарий
Grok 3 может быть не таким крутым: разработчика обвинили в подтасовке результатов теста

Сотрудник OpenAI Борис Пауэр обвинил компанию-разработчика ИИ xAI в публикации вводящих в заблуждение данных по тестированию их новой модели Grok 3.

xAI опубликовала график, демонстрирующий показатели Grok 3 в тесте AIME 2025 — сборнике сложных математических задач. Хотя некоторые эксперты ставят под сомнение валидность AIME как метода оценки, этот тест давно используется для проверки математических способностей моделей.

Источник: xAI.

График xAI показал, что две версии модели — Grok 3 Reasoning Beta и Grok 3 mini Reasoning — превосходят лучшую доступную модель OpenAI, o3-mini-high. Однако в OpenAI обратили внимание на то, что в графике отсутствует оценка o3-mini-high, полученная по методу «cons@64».

Этот метод подразумевает предоставление модели 64 попыток для решения каждой задачи, после чего в качестве окончательного ответа выбирается наиболее часто встречающийся результат, что значительно повышает итоговые баллы.

При сравнении первоначальных результатов («@1»), как оказалось, показатели Grok 3 ниже, а Grok 3 Reasoning Beta даже немного уступает модели o1 OpenAI при использовании средних вычислительных мощностей. Тем не менее xAI рекламирует Grok 3 как «самый умный в мире ИИ».

Соучредитель xAI Игорь Бабушкин заявил, что OpenAI сама в прошлом публиковала вводящие в заблуждение контрольные диаграммы, сравнивая производительность собственных моделей. 

ИИ-исследователь Нэйт Ламберт подчеркнул, что, пожалуй, самым важным, но пока остающимся в тени параметром, является вычислительная (и, соответственно, денежная) стоимость, которая потребовалась для каждой модели, чтобы достичь своего лучшего балла.

Чат-бот Маска заявил что он и Трамп заслуживают смертной казни
Чат-бот Маска заявил, что он и Трамп заслуживают смертной казни
По теме
Чат-бот Маска заявил, что он и Трамп заслуживают смертной казни
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
По теме
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех
По теме
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех
Помогите нам делать больше полезного контента — поддержите редакцию.

Все способы поддержки

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.