Живете в Польше? Поддержите devby 1,5% налога: бесплатно и за 5 минут 🤗
Support us

Grok 3 может быть не таким крутым: разработчика обвинили в подтасовке результатов теста

Сотрудник OpenAI Борис Пауэр обвинил компанию-разработчика ИИ xAI в публикации вводящих в заблуждение данных по тестированию их новой модели Grok 3.

Оставить комментарий
Grok 3 может быть не таким крутым: разработчика обвинили в подтасовке результатов теста

Сотрудник OpenAI Борис Пауэр обвинил компанию-разработчика ИИ xAI в публикации вводящих в заблуждение данных по тестированию их новой модели Grok 3.

xAI опубликовала график, демонстрирующий показатели Grok 3 в тесте AIME 2025 — сборнике сложных математических задач. Хотя некоторые эксперты ставят под сомнение валидность AIME как метода оценки, этот тест давно используется для проверки математических способностей моделей.

Источник: xAI.

График xAI показал, что две версии модели — Grok 3 Reasoning Beta и Grok 3 mini Reasoning — превосходят лучшую доступную модель OpenAI, o3-mini-high. Однако в OpenAI обратили внимание на то, что в графике отсутствует оценка o3-mini-high, полученная по методу «cons@64».

Этот метод подразумевает предоставление модели 64 попыток для решения каждой задачи, после чего в качестве окончательного ответа выбирается наиболее часто встречающийся результат, что значительно повышает итоговые баллы.

При сравнении первоначальных результатов («@1»), как оказалось, показатели Grok 3 ниже, а Grok 3 Reasoning Beta даже немного уступает модели o1 OpenAI при использовании средних вычислительных мощностей. Тем не менее xAI рекламирует Grok 3 как «самый умный в мире ИИ».

Соучредитель xAI Игорь Бабушкин заявил, что OpenAI сама в прошлом публиковала вводящие в заблуждение контрольные диаграммы, сравнивая производительность собственных моделей. 

ИИ-исследователь Нэйт Ламберт подчеркнул, что, пожалуй, самым важным, но пока остающимся в тени параметром, является вычислительная (и, соответственно, денежная) стоимость, которая потребовалась для каждой модели, чтобы достичь своего лучшего балла.

Чат-бот Маска заявил что он и Трамп заслуживают смертной казни
Чат-бот Маска заявил, что он и Трамп заслуживают смертной казни
По теме
Чат-бот Маска заявил, что он и Трамп заслуживают смертной казни
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
По теме
Маск представил чат-бот Grok 3. Он (якобы) лучше ChatGPT и DeepSeek
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех
По теме
«Пока серверы не расплавятся»: Grok 3 стал бесплатно доступен для всех
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
ИИ-агент Moltbot стал хитом среди программистов, но тревожит экспертов
ИИ-агент Moltbot стал хитом среди программистов, но тревожит экспертов
ИИ-агент Moltbot стал хитом среди программистов, но тревожит экспертов
Google представила ИИ для прогнозирования рака и других генетических заболеваний
Google представила ИИ для прогнозирования рака и других генетических заболеваний
Google представила ИИ для прогнозирования рака и других генетических заболеваний
Без шестого пальца: Gemini научилась анализировать изображения по шагам
Без шестого пальца: Gemini научилась анализировать изображения по шагам
Без шестого пальца: Gemini научилась анализировать изображения по шагам
Председатель OpenAI: вайб-кодинг останется навсегда, но будущее не за ним
Председатель OpenAI: вайб-кодинг останется навсегда, но будущее не за ним
Председатель OpenAI: вайб-кодинг останется навсегда, но будущее не за ним

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.