ШІ-бэнчмаркі хлусяць, але ўсе працягваюць імі карыстацца — даследаванне
Даследчыкі з Epoch AI прыйшлі да высновы, што папулярныя бэнчмаркі для ацэнкі ШІ-мадэляў сістэмна ненадзейныя, аднак індустрыя працягвае выкарыстоўваць іх як аб’ектыўны арыенцір.
Epoch AI вылучае дзве ключавыя крыніцы скажэнняў. Першая — гэта наладка самога бэнчмарка: фармулёўкі промптаў, параметры кшталту temperature, выкарыстаныя бібліятэкі, праграмныя «скаффолды» (гэта значыць інструкцыі) для агентных мадэляў, асяроддзе выканання і метады падліку вынікаў.
Другая — спосаб доступу да мадэлі: канкрэтны API-правайдэр, агрэгатар, рэалізацыя сэрвінгу і абмежаванні інфраструктуры. На практыцы кожны з гэтых этапаў змяшчае мноства недакументаваных рашэнняў, якія непасрэдна ўплываюць на канчатковы вынік.
Нават у адносна простых тэстах, такіх як GPQA-Diamond, адрозненні ў рэалізацыі прыводзяць да прыкметных разыходжанняў. Epoch AI параўнала некалькі папулярных бібліятэк і выявіла, што яны выкарыстоўваюць розныя значэнні temperature — ад 0.0 да 1.0.
У выніку адзін і той жа мадэльны адказ паказваў дакладнасць ад 74% да 80% у залежнасці ад канфігурацыі. У больш складаных агентных бэнчмарках, такіх як SWE-bench Verified, эфект яшчэ мацнейшы: змена аднаго толькі скаффолда можа змяняць вынік на 10–15 працэнтных пунктаў, прычым менавіта гэты фактар даследчыкі называюць самым уплывовым.
Найбольшыя ваганні, як высветлілася, дае выбар API-правайдэра. Тэстуючы адну і тую ж адкрытую мадэль праз розных пастаўшчыкоў, Epoch AI зафіксавала разкід вынікаў у дзясяткі працэнтаў. Прычыны вагаюцца ад жорсткіх лімітаў, абрэзаных адказаў і памылак перадачы параметраў да неадпаведнасці заяўленых і рэальных токен-лімітаў.
Пры гэтым новыя мадэлі часта абслугоўваюцца горш, чым даўно абкатаныя, з-за чаго першыя публічныя ацэнкі пасля рэліза аказваюцца асабліва нестабільнымі, менавіта ў момант, калі ўвага рынку максімальная.
Дадатковыя рызыкі стварае само тэставае асяроддзе. Часам інфраструктурныя памылкі перашкаджаюць агентам завяршаць заданні, а ў іншых выпадках, наадварот, дазваляюць «узламаць» ацэнку. Epoch AI прыводзіць прыклад мадэлі IQuest-Coder, якая паказала выдатныя вынікі на SWE-bench, таму што тэставая асяроддзе па памылцы ўтрымлівала поўны Git-рэпазіторый з будучымі камітамі. Мадэль проста счытвала гатовыя рашэнні, але ўражваючыя лічбы паспелі разысціся па сацсетках да таго, як праблема стала публічнай.
Аўтары падкрэсліваюць, што гэтыя цяжкасці носяць сістэмны характар. Папярэднія незалежныя даследаванні ўжо паказвалі, што вынікі адных і тых жа мадэляў могуць моцна адрознівацца ў залежнасці ад фрэймворка, а аналіз соцень бэнчмарк-публікацый выяўляў метадалагічныя слабасці амаль паўсюдна. У сукупнасці дробныя адрозненні на кожным этапе назапашваюцца, з-за чаго незалежным даследчыкам складана ўзнавіць «афіцыйныя» лічбы, якія публікуюць распрацоўшчыкі мадэляў.
Читать на dev.by