Встретимся на BelTech 3.0. Скидка 10% на билет: DEV
Support us

В самом сложном ИИ-тесте треть вопросов оказались некорректными

Многие задания из популярного ИИ-бенчмарка Humanity’s Last Exam оказались ошибочными или спорными. Теперь создатели теста выпустили специальную «золотую» версию с верифицированными вопросами.

Оставить комментарий
В самом сложном ИИ-тесте треть вопросов оказались некорректными

Многие задания из популярного ИИ-бенчмарка Humanity’s Last Exam оказались ошибочными или спорными. Теперь создатели теста выпустили специальную «золотую» версию с верифицированными вопросами.

Экзамен Humanity’s Last Exam (HLE), ставший новым стандартом тестирования ИИ на уровне PhD, оказался не самым достоверным способом проверить возможности современных ИИ-моделей. Команда экспертов FutureHouse обнаружила, что текстовые вопросы по химии и биологии содержат ответы, которые напрямую противоречат научной литературе.

HLE создавался как ультрасложный бенчмарк, чтобы даже самые продвинутые языковые модели не могли преодолеть планку. В результате многие вопросы оказались либо «ловушками», либо настолько сложными, что их ответы спорны или некорректны даже с позиции современных исследований.

Примеры некорректных вопросов:

  • Какой самый редкий благородный газ на Земле в 2002 году? В HLE ответ — «оганесон». Однако оганесон — искусственный элемент, существовавший лишь миллисекунды в ядерном реакторе. Нет доказательств, что он газ или благородный элемент в привычном понимании, а в рецензируемых статьях он даже не учитывается как часть «земного вещества».
  • Сколько времени можно хранить ампулу однодозового препарата после вскрытия в стерильных условиях? В HLE утверждается: 1 час. Но стандарты указывают, что ампулы должны использоваться немедленно, в отличие от флаконов, где допустим 1 час.

Создатели HLE предполагали, чтобы актуальные языковые модели не смогут решить вопрос, но у экспертов проверка полноты научной аргументации занимала не более 5 минут на каждый случай. В итоге часть вопросов превратилась в научные «головоломки» с неоднозначными формулировками и спорными «правильными» ответами.

В результате аудита бенчмарка 29,3 ± 3,7% ответов по биологии и химии были признаны явно противоречащими научным публикациям. 51,3% ответов можно было обосновать аргументами из научной литературы. 19,3% вопросов остались «нюансированными» — их корректность зависит от допущений или позиции эксперта.

Зарплаты в ИИ: сколько получают сотрудники OpenAI Anthropic Perplexity и других
Зарплаты в ИИ: сколько получают сотрудники OpenAI, Anthropic, Perplexity и других
По теме
Зарплаты в ИИ: сколько получают сотрудники OpenAI, Anthropic, Perplexity и других
Турнир по вайб-кодингу закончился провалом — победитель решил лишь 75% задач
Турнир по вайб-кодингу закончился провалом — победитель решил лишь 7,5% задач
По теме
Турнир по вайб-кодингу закончился провалом — победитель решил лишь 7,5% задач
«Я запаниковал»: ИИ-агент Replit удалил продовую базу на 1200 клиентов во время код-фриза
«Я запаниковал»: ИИ-агент Replit удалил продовую базу на 1200 клиентов во время код-фриза
По теме
«Я запаниковал»: ИИ-агент Replit удалил продовую базу на 1200 клиентов во время код-фриза
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.