ШІ-мадэлі ўжо спраўляюцца з тэхнічнымі задачамі лепш за людзей у сярэднім
Апошнія гады сістэмы на аснове штучнага інтэлекту імкліва прагрэсуюць і ўжо пераўзышлі сярэднестатыстычнага чалавека па цэлым шэрагу тэхнічных задач, дзе раней не вызначаліся, напрыклад, у матэматыцы і распазнаванні выяваў.
Апошнія гады сістэмы на аснове штучнага інтэлекту імкліва прагрэсуюць і ўжо пераўзышлі сярэднестатыстычнага чалавека па цэлым шэрагу тэхнічных задач, дзе раней не вызначаліся, напрыклад, у матэматыцы і распазнаванні выяваў.
Visual Capitalist паказаў на інфаграфіцы, як выглядаюць вынікі мадэляў ШІ ў параўнанні з людзьмі. За аснову ўзятыя даныя з актуальнага даклада Artificial Intelligence Index Report Стэнфардскага ўніверсітэта. Гаворка ідзе пра 8 тыпаў задач, па якіх на бенчмарках ацэньваліся здольнасці ШІ:
Класіфікацыя выяваў
Візуальнае разважанне
Чытанне і разуменне тэкстаў сярэдняга ўзроўню
Разуменне англійскай мовы
Шматзадачнае разуменне мовы
Матэматыка на ўзроўні спаборніцтваў
Навуковыя пытанні ўзроўню PhD
Мультымадальнае разуменне і разважанне
Людзі пакуль лепш за ШІ толькі ў адной з задач — мультымадальным разуменні і разважанні, што прадугледжвае апрацоўку матэрыялу, прадстаўленага ў розных фарматах або дысцыплінах. Але разрыў імкліва скарачаецца. Напрыклад, у 2024 годзе мадэль o1 ад OpenAI набрала 78,2% на адпаведным бенчмарку MMMU — гэта ўсяго на 4,4 п. п. менш за вынік чалавека. Дарэчы, мадэль o1 мае адзін з самых нізкіх узроўняў «галюцынацый» сярод ШІ-мадэляў.
У 2024 годзе ШІ абышоў людзей у вырашэнні матэматычных задач спаборніцкага ўзроўню (108,78%), у разуменні англійскай мовы — яшчэ ў 2021 годзе (летась было 101,78%), у класіфікацыі выяваў — яшчэ ў 2016-м. У 2024 годзе ШІ стаў лепш за людзей у шматзадачным разуменні мовы (102,78%) і ў навуковых задачах узроўню PhD, прычым тут адбыўся двухразовы скачок — 108% супраць 47,78% у 2023 годзе.
У дакладзе Стэнфардскага ўніверсітэта можна паглядзець, як суадносіліся мадэлі ШІ з людзьмі па кожнай з задач за апошнія гады. Ён даступны па спасылцы.
Tencent разработала нейросеть для восстановления старых фотографий
Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот
Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале
Абмеркаванне
Каментуйце без абмежаванняў
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
Anonymous
30 красавіка 2025, 17:42
0
совсем недавно писали что новые модели OpenAI глючнее старых
[Часть комментария скрыта за нарушение правил общения. Вот они, их всего пять: https://devby.io/news/comments-2024] "Новые модели ИИ от OpenAI стали ошибаются чаще, несмотря на улучшения Вот вам и ИИ" при чем создатели оно не представляют отчего так
Anonymous
30 красавіка 2025, 18:44
0
https://tech.co/news/fake-company-ai-agents-disaster "Фальшивая компания, в которой работали только агенты с искусственным интеллектом, оказалась полной катастрофой": "...моделям ИИ было поручено выполнить задачи, которые необходимо было бы выполнить сотрудникам небольшого стартапа по разработке программного обеспечения" https://tech.yahoo.com/ai/articles/next-assignment-babysitting-ai-081502817.html
"Во время выполнения одной задачи агент не мог найти нужного человека для общения в чате и решил вместо этого создать пользователя с тем же именем." порция лулзов
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
совсем недавно писали что новые модели OpenAI глючнее старых
[Часть комментария скрыта за нарушение правил общения. Вот они, их всего пять: https://devby.io/news/comments-2024] "Новые модели ИИ от OpenAI стали ошибаются чаще, несмотря на улучшения Вот вам и ИИ" при чем создатели оно не представляют отчего так
https://tech.co/news/fake-company-ai-agents-disaster "Фальшивая компания, в которой работали только агенты с искусственным интеллектом, оказалась полной катастрофой": "...моделям ИИ было поручено выполнить задачи, которые необходимо было бы выполнить сотрудникам небольшого стартапа по разработке программного обеспечения"
https://tech.yahoo.com/ai/articles/next-assignment-babysitting-ai-081502817.html
"Во время выполнения одной задачи агент не мог найти нужного человека для общения в чате и решил вместо этого создать пользователя с тем же именем." порция лулзов