Николай Чикишев world 25 ліпеня 2025, 15:16

У самым складаным ШІ-тэсце траціна пытанняў аказалася некарэктнай

Многія заданні з папулярнага ШІ-бэнчмарка Humanity’s Last Exam аказаліся памылковымі ці спрэчнымі. Зараз стваральнікі тэсту выпусцілі спецыяльную «залатую» версію з верыфікаванымі пытаннямі.

Пакінуць каментарый

У самым складаным ШІ-тэсце траціна пытанняў аказалася некарэктнай

Многія заданні з папулярнага ШІ-бэнчмарка Humanity’s Last Exam аказаліся памылковымі ці спрэчнымі. Зараз стваральнікі тэсту выпусцілі спецыяльную «залатую» версію з верыфікаванымі пытаннямі.

Экзамен Humanity’s Last Exam (HLE), які стаў новым стандартам тэставання ШІ на ўзроўні PhD, аказаўся не самым дакладным спосабам праверыць магчымасці сучасных ШІ-мадэляў. Каманда экспертаў FutureHouse выявіла, што тэкставыя пытанні па хіміі і біялогіі змяшчаюць адказы, якія наўпрост супярэчаць навуковай літаратуры.

HLE ствараўся як ультраскладаны бэнчмарк, каб нават самыя прасунутыя моўныя мадэлі не маглі пераадолець планку. У выніку шмат пытанняў аказаліся альбо «пасткамі», альбо настолькі складанымі, што іх адказы спрэчныя ці некарэктныя нават з пазіцыі сучасных даследаванняў.

Прыклады некарэктных пытанняў:

Які самы рэдкі выскародны газ на Зямлі ў 2002 годзе? У HLE адказ — «аганесон». Аднак аганесон — штучны элемент, які існаваў толькі мілісекунды ў ядзерным рэактары. Няма доказаў, што ён газ ці высакародны элемент у звыклым разуменні, а ў рэцэнзаваных артыкулах ён нават не ўлічваецца як частка «зямнога рэчыва».
Колькі часу можна захоўваць ампулу аднадозавага прэпарату пасля ўскрыцця ў стэрыльных умовах? У HLE сцвярджаецца: 1 гадзіна. Але стандарты паказваюць, што ампулы павінны выкарыстоўвацца неадкладна, у адрозненне ад флаконаў, дзе дапушчальна 1 гадзіна.

Стваральнікі HLE меркавалі, што актуальныя моўныя мадэлі не змогуць вырашыць пытанне, але ў экспертаў праверка паўнаты навуковай аргументацыі займала не больш за 5 хвілін на кожны выпадак. У выніку частка пытанняў ператварылася ў навуковыя «галаваломкі» з неадназначнымі фармулёўкамі і спрэчнымі «правільнымі» адказамі.

У выніку аўдыту бэнчмарка 29,3 ± 3,7% адказаў па біялогіі і хіміі былі прызнаны яўна супярэчнымі навуковым публікацыям. 51,3% адказаў можна было абгрунтаваць аргументамі з навуковай літаратуры. 19,3% пытанняў засталіся «нюансаванымі» — іх карэктнасць залежыць ад дапушчэнняў ці пазіцыі эксперта.