В самом сложном ИИ-тесте треть вопросов оказались некорректными

Многие задания из популярного ИИ-бенчмарка Humanity’s Last Exam оказались ошибочными или спорными. Теперь создатели теста выпустили специальную «золотую» версию с верифицированными вопросами.

Оставить комментарий

Экзамен Humanity’s Last Exam (HLE), ставший новым стандартом тестирования ИИ на уровне PhD, оказался не самым достоверным способом проверить возможности современных ИИ-моделей. Команда экспертов FutureHouse обнаружила, что текстовые вопросы по химии и биологии содержат ответы, которые напрямую противоречат научной литературе.

HLE создавался как ультрасложный бенчмарк, чтобы даже самые продвинутые языковые модели не могли преодолеть планку. В результате многие вопросы оказались либо «ловушками», либо настолько сложными, что их ответы спорны или некорректны даже с позиции современных исследований.

Примеры некорректных вопросов:

  • Какой самый редкий благородный газ на Земле в 2002 году? В HLE ответ — «оганесон». Однако оганесон — искусственный элемент, существовавший лишь миллисекунды в ядерном реакторе. Нет доказательств, что он газ или благородный элемент в привычном понимании, а в рецензируемых статьях он даже не учитывается как часть «земного вещества».
  • Сколько времени можно хранить ампулу однодозового препарата после вскрытия в стерильных условиях? В HLE утверждается: 1 час. Но стандарты указывают, что ампулы должны использоваться немедленно, в отличие от флаконов, где допустим 1 час.

Создатели HLE предполагали, чтобы актуальные языковые модели не смогут решить вопрос, но у экспертов проверка полноты научной аргументации занимала не более 5 минут на каждый случай. В итоге часть вопросов превратилась в научные «головоломки» с неоднозначными формулировками и спорными «правильными» ответами.

В результате аудита бенчмарка 29,3 ± 3,7% ответов по биологии и химии были признаны явно противоречащими научным публикациям. 51,3% ответов можно было обосновать аргументами из научной литературы. 19,3% вопросов остались «нюансированными» — их корректность зависит от допущений или позиции эксперта.

Зарплаты в ИИ: сколько получают сотрудники OpenAI, Anthropic, Perplexity и других
По теме
Зарплаты в ИИ: сколько получают сотрудники OpenAI, Anthropic, Perplexity и других
Турнир по вайб-кодингу закончился провалом — победитель решил лишь 7,5% задач
По теме
Турнир по вайб-кодингу закончился провалом — победитель решил лишь 7,5% задач
«Я запаниковал»: ИИ-агент Replit удалил продовую базу на 1200 клиентов во время код-фриза
По теме
«Я запаниковал»: ИИ-агент Replit удалил продовую базу на 1200 клиентов во время код-фриза

Читать на dev.by