Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

ИИ-бенчмарки врут, но все продолжают ими пользоваться — исследование

Исследователи из Epoch AI пришли к выводу, что популярные бенчмарки для оценки ИИ-моделей системно ненадежны, однако индустрия продолжает использовать их как объективный ориентир.

Оставить комментарий
ИИ-бенчмарки врут, но все продолжают ими пользоваться — исследование

Исследователи из Epoch AI пришли к выводу, что популярные бенчмарки для оценки ИИ-моделей системно ненадежны, однако индустрия продолжает использовать их как объективный ориентир.

Epoch AI выделяет два ключевых источника искажений. Первый — это настройка самого бенчмарка: формулировки промптов, параметры вроде temperature, используемые библиотеки, программные «скаффолды» (то есть инструкции) для агентных моделей, среда выполнения и методы подсчета результатов.

Второй — способ доступа к модели: конкретный API-провайдер, агрегатор, реализация сервинга и ограничения инфраструктуры. На практике каждый из этих этапов содержит множество недокументированных решений, которые напрямую влияют на итоговый результат.

Влияние этапов бенчмаркинга на итоговый результат: от формулировки промптов и выбора скаффолда до API-провайдера и среды запуска. Источник: Epoch AI.

Даже в относительно простых тестах, таких как GPQA-Diamond, различия в реализации приводят к заметным расхождениям. Epoch AI сравнила несколько популярных библиотек и обнаружила, что они используют разные значения temperature — от 0.0 до 1.0.

В результате один и тот же модельный ответ показывал точность от 74% до 80% в зависимости от конфигурации. В более сложных агентных бенчмарках, таких как SWE-bench Verified, эффект еще сильнее: смена одного лишь скаффолда может менять результат на 10–15 процентных пунктов, причем именно этот фактор исследователи называют самым влиятельным.

Результаты тестов сильно зависят не от модели, а от того, с помощью какого скаффолда ее тестируют: его смена дает разницу до 10–15 процентных пунктов. Источник: Epoch AI.

Наибольшие колебания, как выяснилось, дает выбор API-провайдера. Тестируя одну и ту же открытую модель через разных поставщиков, Epoch AI зафиксировала разброс результатов в десятки процентов. Причины варьируются от жестких лимитов, обрезанных ответов и ошибок передачи параметров до несоответствия заявленных и реальных токен-лимитов.

При этом новые модели зачастую обслуживаются хуже, чем давно обкатанные, из-за чего первые публичные оценки после релиза оказываются особенно нестабильными, именно в момент, когда внимание рынка максимальное.

Одна и та же модель (GLM-4.6) показывает радикально разные результаты в тесте GPQA Diamond в зависимости от того, через какого API-провайдера ее запускают. Источник: Epoch AI.

Дополнительные риски создает сама тестовая среда. Иногда инфраструктурные ошибки мешают агентам завершать задания, а в других случаях, наоборот, позволяют «взломать» оценку. Epoch AI приводит пример модели IQuest-Coder, которая показала выдающиеся результаты на SWE-bench, потому что тестовая среда по ошибке содержала полный Git-репозиторий с будущими коммитами. Модель просто считывала готовые решения, но впечатляющие цифры успели разойтись по соцсетям до того, как проблема стала публичной.

Авторы подчеркивают, что эти трудности носят системный характер. Предыдущие независимые исследования уже показывали, что результаты одних и тех же моделей могут сильно отличаться в зависимости от фреймворка, а анализ сотен бенчмарк-публикаций выявлял методологические слабости почти повсеместно. В совокупности мелкие различия на каждом этапе накапливаются, из-за чего независимым исследователям сложно воспроизвести «официальные» цифры, публикуемые разработчиками моделей.

Как попасть в ИИ-команду Google: истории четырёх сотрудников
Как попасть в ИИ-команду Google: истории четырёх сотрудников
По теме
Как попасть в ИИ-команду Google: истории четырёх сотрудников
Как разработчику выжить в эпоху ИИ — советы инженера Microsoft
Как разработчику выжить в эпоху ИИ — советы инженера Microsoft
По теме
Как разработчику выжить в эпоху ИИ — советы инженера Microsoft
Создатель Claude Code показал как вайбкодит. Комьюнити загудело
Создатель Claude Code показал, как вайбкодит. Комьюнити загудело
По теме
Создатель Claude Code показал, как вайбкодит. Комьюнити загудело
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
Беларусь оказалась в топе стран по темпам внедрения DeepSeek — вместе с Ираном и Кубой
Беларусь оказалась в топе стран по темпам внедрения DeepSeek — вместе с Ираном и Кубой
Беларусь оказалась в топе стран по темпам внедрения DeepSeek — вместе с Ираном и Кубой
CEO уволил 80% сотрудников из-за ИИ. Говорит, что сделал бы это снова
CEO уволил 80% сотрудников из-за ИИ. Говорит, что сделал бы это снова
CEO уволил 80% сотрудников из-за ИИ. Говорит, что сделал бы это снова
Как попасть в ИИ-команду Google: истории четырёх сотрудников
Как попасть в ИИ-команду Google: истории четырёх сотрудников
Как попасть в ИИ-команду Google: истории четырёх сотрудников
Китай предупреждает США, что не будет терпеть утечку ИИ-талантов
Китай предупреждает США, что не будет терпеть утечку ИИ-талантов
Китай предупреждает США, что не будет терпеть утечку ИИ-талантов

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.