ШІ-бэнчмаркі хлусяць, але ўсе працягваюць імі карыстацца — даследаванне

Даследчыкі з Epoch AI прыйшлі да высновы, што папулярныя бэнчмаркі для ацэнкі ШІ-мадэляў сістэмна ненадзейныя, аднак індустрыя працягвае выкарыстоўваць іх як аб’ектыўны арыенцір.

Пакінуць каментарый

Epoch AI вылучае дзве ключавыя крыніцы скажэнняў. Першая — гэта наладка самога бэнчмарка: фармулёўкі промптаў, параметры кшталту temperature, выкарыстаныя бібліятэкі, праграмныя «скаффолды» (гэта значыць інструкцыі) для агентных мадэляў, асяроддзе выканання і метады падліку вынікаў.

Другая — спосаб доступу да мадэлі: канкрэтны API-правайдэр, агрэгатар, рэалізацыя сэрвінгу і абмежаванні інфраструктуры. На практыцы кожны з гэтых этапаў змяшчае мноства недакументаваных рашэнняў, якія непасрэдна ўплываюць на канчатковы вынік.

Уплыў этапаў бэнчмаркінгу на канчатковы вынік: ад фармулёўкі промптаў і выбару скаффолда да API-правайдэра і асяроддзя запуску. Крыніца: Epoch AI.

Нават у адносна простых тэстах, такіх як GPQA-Diamond, адрозненні ў рэалізацыі прыводзяць да прыкметных разыходжанняў. Epoch AI параўнала некалькі папулярных бібліятэк і выявіла, што яны выкарыстоўваюць розныя значэнні temperature — ад 0.0 да 1.0.

У выніку адзін і той жа мадэльны адказ паказваў дакладнасць ад 74% да 80% у залежнасці ад канфігурацыі. У больш складаных агентных бэнчмарках, такіх як SWE-bench Verified, эфект яшчэ мацнейшы: змена аднаго толькі скаффолда можа змяняць вынік на 10–15 працэнтных пунктаў, прычым менавіта гэты фактар даследчыкі называюць самым уплывовым.

Вынікі тэстаў моцна залежаць не ад мадэлі, а ад таго, з дапамогай якога скаффолда яе тэстуюць: яго змена дае розніцу да 10–15 працэнтных пунктаў. Крыніца: Epoch AI.

Найбольшыя ваганні, як высветлілася, дае выбар API-правайдэра. Тэстуючы адну і тую ж адкрытую мадэль праз розных пастаўшчыкоў, Epoch AI зафіксавала разкід вынікаў у дзясяткі працэнтаў. Прычыны вагаюцца ад жорсткіх лімітаў, абрэзаных адказаў і памылак перадачы параметраў да неадпаведнасці заяўленых і рэальных токен-лімітаў.

Пры гэтым новыя мадэлі часта абслугоўваюцца горш, чым даўно абкатаныя, з-за чаго першыя публічныя ацэнкі пасля рэліза аказваюцца асабліва нестабільнымі, менавіта ў момант, калі ўвага рынку максімальная.

Адна і тая ж мадэль (GLM-4.6) паказвае радыкальна розныя вынікі ў тэсце GPQA Diamond у залежнасці ад таго, праз якога API-правайдэра яе запускаюць. Крыніца: Epoch AI.

Дадатковыя рызыкі стварае само тэставае асяроддзе. Часам інфраструктурныя памылкі перашкаджаюць агентам завяршаць заданні, а ў іншых выпадках, наадварот, дазваляюць «узламаць» ацэнку. Epoch AI прыводзіць прыклад мадэлі IQuest-Coder, якая паказала выдатныя вынікі на SWE-bench, таму што тэставая асяроддзе па памылцы ўтрымлівала поўны Git-рэпазіторый з будучымі камітамі. Мадэль проста счытвала гатовыя рашэнні, але ўражваючыя лічбы паспелі разысціся па сацсетках да таго, як праблема стала публічнай.

Аўтары падкрэсліваюць, што гэтыя цяжкасці носяць сістэмны характар. Папярэднія незалежныя даследаванні ўжо паказвалі, што вынікі адных і тых жа мадэляў могуць моцна адрознівацца ў залежнасці ад фрэймворка, а аналіз соцень бэнчмарк-публікацый выяўляў метадалагічныя слабасці амаль паўсюдна. У сукупнасці дробныя адрозненні на кожным этапе назапашваюцца, з-за чаго незалежным даследчыкам складана ўзнавіць «афіцыйныя» лічбы, якія публікуюць распрацоўшчыкі мадэляў.

Як трапіць у ШІ-каманду Google: гісторыі чатырох супрацоўнікаў
Па тэме
Як трапіць у ШІ-каманду Google: гісторыі чатырох супрацоўнікаў
Як распрацоўшчыку выжыць у эпоху ШІ — парады інжынера Microsoft
Па тэме
Як распрацоўшчыку выжыць у эпоху ШІ — парады інжынера Microsoft
Стваральнік Claude Code паказаў, як вайбкодзіць. Камьюніці загудзела
Па тэме
Стваральнік Claude Code паказаў, як вайбкодзіць. Камьюніці загудзела

Читать на dev.by