ИИ-модели уже справляются с техническими задачами лучше людей в среднем

Последние годы системы на основе искусственного интеллекта прогрессируют огромными шагами и уже превзошли среднестатистического человека в целом ряде технических задач, где раньше не блистали, например по математике и распознаванию изображений.

2 комментария

Visual Capitalist показал на инфографике, как выглядят результаты ИИ-моделей на фоне людей. За основу взяты данные из свежего доклада Artificial Intelligence Index Report от Стэнфордского университета. Речь о 8 видах задач, по которым на бенчмарках оценивались способности ИИ:

  1. Классификация изображений
  2. Визуальное рассуждение
  3. Чтение и понимание текстов среднего уровня
  4. Понимание английского языка
  5. Многозадачное понимание языка
  6. Математика уровня соревнований
  7. Научные вопросы уровня PhD
  8. Мультимодальное понимание и рассуждение

Люди пока лучше ИИ только в одной из задач — мультимодальное понимание и рассуждение, что подразумевает обработку материала, представленного в разных форматах или дисциплинах. Но разрыв стремительно сокращается. К примеру, в 2024 году модель o1 от OpenAI набрала 78,2% на соответствующем бенчмарке MMMU — это лишь на 4,4 п. п. меньше человеческого результата. К слову, модель o1 имеет один из самых низких показателей галлюцинаций среди ИИ-моделей.

В 2024-м ИИ обошёл людей в решении соревновательных математических задач (108,78%), в понимании английского — ещё в 2021-м (в прошлом году было 101,78%), в классификации изображений — в 2016-м. В 2024 году ИИ стал лучше людей многозадачном понимании языка (102,78%) и в научных задачах уровня PhD, причём здесь произошёл двукратный скачок — 108% против 47,78% в 2023 году.

В докладе Стэнфорда можно посмотреть, как соотносились ИИ-модели с людьми по каждой из задач за последние годы. Он доступен по ссылке.

Другое мнение: благодаря вайб-кодингу компании будут нанимать не меньше, а наоборот больше
По теме
Другое мнение: благодаря вайб-кодингу компании будут нанимать не меньше, а наоборот больше
Австралийское радио полгода вёл ИИ — никто даже не заметил
По теме
Австралийское радио полгода вёл ИИ — никто даже не заметил

Читать на dev.by