ИИ-модели уже справляются с техническими задачами лучше людей в среднем
Последние годы системы на основе искусственного интеллекта прогрессируют огромными шагами и уже превзошли среднестатистического человека в целом ряде технических задач, где раньше не блистали, например по математике и распознаванию изображений.
Последние годы системы на основе искусственного интеллекта прогрессируют огромными шагами и уже превзошли среднестатистического человека в целом ряде технических задач, где раньше не блистали, например по математике и распознаванию изображений.
Visual Capitalist показал на инфографике, как выглядят результаты ИИ-моделей на фоне людей. За основу взяты данные из свежего доклада Artificial Intelligence Index Report от Стэнфордского университета. Речь о 8 видах задач, по которым на бенчмарках оценивались способности ИИ:
Классификация изображений
Визуальное рассуждение
Чтение и понимание текстов среднего уровня
Понимание английского языка
Многозадачное понимание языка
Математика уровня соревнований
Научные вопросы уровня PhD
Мультимодальное понимание и рассуждение
Люди пока лучше ИИ только в одной из задач — мультимодальное понимание и рассуждение, что подразумевает обработку материала, представленного в разных форматах или дисциплинах. Но разрыв стремительно сокращается. К примеру, в 2024 году модель o1 от OpenAI набрала 78,2% на соответствующем бенчмарке MMMU — это лишь на 4,4 п. п. меньше человеческого результата. К слову, модель o1 имеет один из самых низких показателей галлюцинаций среди ИИ-моделей.
В 2024-м ИИ обошёл людей в решении соревновательных математических задач (108,78%), в понимании английского — ещё в 2021-м (в прошлом году было 101,78%), в классификации изображений — в 2016-м. В 2024 году ИИ стал лучше людей многозадачном понимании языка (102,78%) и в научных задачах уровня PhD, причём здесь произошёл двукратный скачок — 108% против 47,78% в 2023 году.
В докладе Стэнфорда можно посмотреть, как соотносились ИИ-модели с людьми по каждой из задач за последние годы. Он доступен по ссылке.
Хотите сообщить важную новость? Пишите в Telegram-бот
Главные события и полезные ссылки в нашем Telegram-канале
Обсуждение
Комментируйте без ограничений
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Anonymous
30 апреля 2025, 17:42
0
совсем недавно писали что новые модели OpenAI глючнее старых
[Часть комментария скрыта за нарушение правил общения. Вот они, их всего пять: https://devby.io/news/comments-2024] "Новые модели ИИ от OpenAI стали ошибаются чаще, несмотря на улучшения Вот вам и ИИ" при чем создатели оно не представляют отчего так
Anonymous
30 апреля 2025, 18:44
0
https://tech.co/news/fake-company-ai-agents-disaster "Фальшивая компания, в которой работали только агенты с искусственным интеллектом, оказалась полной катастрофой": "...моделям ИИ было поручено выполнить задачи, которые необходимо было бы выполнить сотрудникам небольшого стартапа по разработке программного обеспечения" https://tech.yahoo.com/ai/articles/next-assignment-babysitting-ai-081502817.html
"Во время выполнения одной задачи агент не мог найти нужного человека для общения в чате и решил вместо этого создать пользователя с тем же именем." порция лулзов
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
совсем недавно писали что новые модели OpenAI глючнее старых
[Часть комментария скрыта за нарушение правил общения. Вот они, их всего пять: https://devby.io/news/comments-2024] "Новые модели ИИ от OpenAI стали ошибаются чаще, несмотря на улучшения Вот вам и ИИ" при чем создатели оно не представляют отчего так
https://tech.co/news/fake-company-ai-agents-disaster "Фальшивая компания, в которой работали только агенты с искусственным интеллектом, оказалась полной катастрофой": "...моделям ИИ было поручено выполнить задачи, которые необходимо было бы выполнить сотрудникам небольшого стартапа по разработке программного обеспечения"
https://tech.yahoo.com/ai/articles/next-assignment-babysitting-ai-081502817.html
"Во время выполнения одной задачи агент не мог найти нужного человека для общения в чате и решил вместо этого создать пользователя с тем же именем." порция лулзов