Дапамажыце dev.by 🤍
Падтрымаць

У самым складаным ШІ-тэсце траціна пытанняў аказалася некарэктнай

Многія заданні з папулярнага ШІ-бэнчмарка Humanity’s Last Exam аказаліся памылковымі ці спрэчнымі. Зараз стваральнікі тэсту выпусцілі спецыяльную «залатую» версію з верыфікаванымі пытаннямі.

Пакінуць каментарый
У самым складаным ШІ-тэсце траціна пытанняў аказалася некарэктнай

Многія заданні з папулярнага ШІ-бэнчмарка Humanity’s Last Exam аказаліся памылковымі ці спрэчнымі. Зараз стваральнікі тэсту выпусцілі спецыяльную «залатую» версію з верыфікаванымі пытаннямі.

Экзамен Humanity’s Last Exam (HLE), які стаў новым стандартам тэставання ШІ на ўзроўні PhD, аказаўся не самым дакладным спосабам праверыць магчымасці сучасных ШІ-мадэляў. Каманда экспертаў FutureHouse выявіла, што тэкставыя пытанні па хіміі і біялогіі змяшчаюць адказы, якія наўпрост супярэчаць навуковай літаратуры.

HLE ствараўся як ультраскладаны бэнчмарк, каб нават самыя прасунутыя моўныя мадэлі не маглі пераадолець планку. У выніку шмат пытанняў аказаліся альбо «пасткамі», альбо настолькі складанымі, што іх адказы спрэчныя ці некарэктныя нават з пазіцыі сучасных даследаванняў.

Прыклады некарэктных пытанняў:

  • Які самы рэдкі выскародны газ на Зямлі ў 2002 годзе? У HLE адказ — «аганесон». Аднак аганесон — штучны элемент, які існаваў толькі мілісекунды ў ядзерным рэактары. Няма доказаў, што ён газ ці высакародны элемент у звыклым разуменні, а ў рэцэнзаваных артыкулах ён нават не ўлічваецца як частка «зямнога рэчыва».
  • Колькі часу можна захоўваць ампулу аднадозавага прэпарату пасля ўскрыцця ў стэрыльных умовах? У HLE сцвярджаецца: 1 гадзіна. Але стандарты паказваюць, што ампулы павінны выкарыстоўвацца неадкладна, у адрозненне ад флаконаў, дзе дапушчальна 1 гадзіна.

Стваральнікі HLE меркавалі, што актуальныя моўныя мадэлі не змогуць вырашыць пытанне, але ў экспертаў праверка паўнаты навуковай аргументацыі займала не больш за 5 хвілін на кожны выпадак. У выніку частка пытанняў ператварылася ў навуковыя «галаваломкі» з неадназначнымі фармулёўкамі і спрэчнымі «правільнымі» адказамі.

У выніку аўдыту бэнчмарка 29,3 ± 3,7% адказаў па біялогіі і хіміі былі прызнаны яўна супярэчнымі навуковым публікацыям. 51,3% адказаў можна было абгрунтаваць аргументамі з навуковай літаратуры. 19,3% пытанняў засталіся «нюансаванымі» — іх карэктнасць залежыць ад дапушчэнняў ці пазіцыі эксперта.

Зарплаты ў ШІ: колькі атрымліваюць супрацоўнікі OpenAI Anthropic Perplexity і іншых
Зарплаты ў ШІ: колькі атрымліваюць супрацоўнікі OpenAI, Anthropic, Perplexity і іншых
Па тэме
Зарплаты ў ШІ: колькі атрымліваюць супрацоўнікі OpenAI, Anthropic, Perplexity і іншых
Турнір па вайб-кодынгу скончыўся правалам — пераможца вырашыў толькі 75% задач
Турнір па вайб-кодынгу скончыўся правалам — пераможца вырашыў толькі 7,5% задач
Па тэме
Турнір па вайб-кодынгу скончыўся правалам — пераможца вырашыў толькі 7,5% задач
«Я запанікаваў»: ШІ-агент Replit выдаліў прадуктовую базу на 1200 кліентаў падчас код-фрызу
«Я запанікаваў»: ШІ-агент Replit выдаліў прадуктовую базу на 1200 кліентаў падчас код-фрызу
Па тэме
«Я запанікаваў»: ШІ-агент Replit выдаліў прадуктовую базу на 1200 кліентаў падчас код-фрызу
Чытайце таксама
У адказах ChatGPT з'явілася рэклама
У адказах ChatGPT з'явілася рэклама
У адказах ChatGPT з'явілася рэклама
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
1 каментарый
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.