Дапамажыце dev.by 🤍
Падтрымаць

У самым складаным ШІ-тэсце траціна пытанняў аказалася некарэктнай

Многія заданні з папулярнага ШІ-бэнчмарка Humanity’s Last Exam аказаліся памылковымі ці спрэчнымі. Зараз стваральнікі тэсту выпусцілі спецыяльную «залатую» версію з верыфікаванымі пытаннямі.

Пакінуць каментарый
У самым складаным ШІ-тэсце траціна пытанняў аказалася некарэктнай

Многія заданні з папулярнага ШІ-бэнчмарка Humanity’s Last Exam аказаліся памылковымі ці спрэчнымі. Зараз стваральнікі тэсту выпусцілі спецыяльную «залатую» версію з верыфікаванымі пытаннямі.

Экзамен Humanity’s Last Exam (HLE), які стаў новым стандартам тэставання ШІ на ўзроўні PhD, аказаўся не самым дакладным спосабам праверыць магчымасці сучасных ШІ-мадэляў. Каманда экспертаў FutureHouse выявіла, што тэкставыя пытанні па хіміі і біялогіі змяшчаюць адказы, якія наўпрост супярэчаць навуковай літаратуры.

HLE ствараўся як ультраскладаны бэнчмарк, каб нават самыя прасунутыя моўныя мадэлі не маглі пераадолець планку. У выніку шмат пытанняў аказаліся альбо «пасткамі», альбо настолькі складанымі, што іх адказы спрэчныя ці некарэктныя нават з пазіцыі сучасных даследаванняў.

Прыклады некарэктных пытанняў:

  • Які самы рэдкі выскародны газ на Зямлі ў 2002 годзе? У HLE адказ — «аганесон». Аднак аганесон — штучны элемент, які існаваў толькі мілісекунды ў ядзерным рэактары. Няма доказаў, што ён газ ці высакародны элемент у звыклым разуменні, а ў рэцэнзаваных артыкулах ён нават не ўлічваецца як частка «зямнога рэчыва».
  • Колькі часу можна захоўваць ампулу аднадозавага прэпарату пасля ўскрыцця ў стэрыльных умовах? У HLE сцвярджаецца: 1 гадзіна. Але стандарты паказваюць, што ампулы павінны выкарыстоўвацца неадкладна, у адрозненне ад флаконаў, дзе дапушчальна 1 гадзіна.

Стваральнікі HLE меркавалі, што актуальныя моўныя мадэлі не змогуць вырашыць пытанне, але ў экспертаў праверка паўнаты навуковай аргументацыі займала не больш за 5 хвілін на кожны выпадак. У выніку частка пытанняў ператварылася ў навуковыя «галаваломкі» з неадназначнымі фармулёўкамі і спрэчнымі «правільнымі» адказамі.

У выніку аўдыту бэнчмарка 29,3 ± 3,7% адказаў па біялогіі і хіміі былі прызнаны яўна супярэчнымі навуковым публікацыям. 51,3% адказаў можна было абгрунтаваць аргументамі з навуковай літаратуры. 19,3% пытанняў засталіся «нюансаванымі» — іх карэктнасць залежыць ад дапушчэнняў ці пазіцыі эксперта.

Зарплаты ў ШІ: колькі атрымліваюць супрацоўнікі OpenAI Anthropic Perplexity і іншых
Зарплаты ў ШІ: колькі атрымліваюць супрацоўнікі OpenAI, Anthropic, Perplexity і іншых
Па тэме
Зарплаты ў ШІ: колькі атрымліваюць супрацоўнікі OpenAI, Anthropic, Perplexity і іншых
Турнір па вайб-кодынгу скончыўся правалам — пераможца вырашыў толькі 75% задач
Турнір па вайб-кодынгу скончыўся правалам — пераможца вырашыў толькі 7,5% задач
Па тэме
Турнір па вайб-кодынгу скончыўся правалам — пераможца вырашыў толькі 7,5% задач
«Я запанікаваў»: ШІ-агент Replit выдаліў прадуктовую базу на 1200 кліентаў падчас код-фрызу
«Я запанікаваў»: ШІ-агент Replit выдаліў прадуктовую базу на 1200 кліентаў падчас код-фрызу
Па тэме
«Я запанікаваў»: ШІ-агент Replit выдаліў прадуктовую базу на 1200 кліентаў падчас код-фрызу
Чытайце таксама
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.