Аддзел навін world 30 красавіка 2025, 14:12

ШІ-мадэлі ўжо спраўляюцца з тэхнічнымі задачамі лепш за людзей у сярэднім

Апошнія гады сістэмы на аснове штучнага інтэлекту імкліва прагрэсуюць і ўжо пераўзышлі сярэднестатыстычнага чалавека па цэлым шэрагу тэхнічных задач, дзе раней не вызначаліся, напрыклад, у матэматыцы і распазнаванні выяваў.

2 каментарыя

ШІ-мадэлі ўжо спраўляюцца з тэхнічнымі задачамі лепш за людзей у сярэднім

Апошнія гады сістэмы на аснове штучнага інтэлекту імкліва прагрэсуюць і ўжо пераўзышлі сярэднестатыстычнага чалавека па цэлым шэрагу тэхнічных задач, дзе раней не вызначаліся, напрыклад, у матэматыцы і распазнаванні выяваў.

Visual Capitalist паказаў на інфаграфіцы, як выглядаюць вынікі мадэляў ШІ ў параўнанні з людзьмі. За аснову ўзятыя даныя з актуальнага даклада Artificial Intelligence Index Report Стэнфардскага ўніверсітэта. Гаворка ідзе пра 8 тыпаў задач, па якіх на бенчмарках ацэньваліся здольнасці ШІ:

Класіфікацыя выяваў
Візуальнае разважанне
Чытанне і разуменне тэкстаў сярэдняга ўзроўню
Разуменне англійскай мовы
Шматзадачнае разуменне мовы
Матэматыка на ўзроўні спаборніцтваў
Навуковыя пытанні ўзроўню PhD
Мультымадальнае разуменне і разважанне

Людзі пакуль лепш за ШІ толькі ў адной з задач — мультымадальным разуменні і разважанні, што прадугледжвае апрацоўку матэрыялу, прадстаўленага ў розных фарматах або дысцыплінах. Але разрыў імкліва скарачаецца. Напрыклад, у 2024 годзе мадэль o1 ад OpenAI набрала 78,2% на адпаведным бенчмарку MMMU — гэта ўсяго на 4,4 п. п. менш за вынік чалавека. Дарэчы, мадэль o1 мае адзін з самых нізкіх узроўняў «галюцынацый» сярод ШІ-мадэляў.

У 2024 годзе ШІ абышоў людзей у вырашэнні матэматычных задач спаборніцкага ўзроўню (108,78%), у разуменні англійскай мовы — яшчэ ў 2021 годзе (летась было 101,78%), у класіфікацыі выяваў — яшчэ ў 2016-м. У 2024 годзе ШІ стаў лепш за людзей у шматзадачным разуменні мовы (102,78%) і ў навуковых задачах узроўню PhD, прычым тут адбыўся двухразовы скачок — 108% супраць 47,78% у 2023 годзе.

У дакладзе Стэнфардскага ўніверсітэта можна паглядзець, як суадносіліся мадэлі ШІ з людзьмі па кожнай з задач за апошнія гады. Ён даступны па спасылцы.

Іншая меркаванне: дзякуючы вайб-кодынгу кампаніі будуць наймаць не менш, а наадварот больш

Аўстралійскае радыё паўгода вёў ШІ – ніхто нават не заўважыў

2 каментарыя

Тэкст: Аддзел навін Фота: Katja Anokhina / Unsplash Крыніца: Visual Capitalist Тэгі: бенчмарки, искусственный интеллект, модели

Знайшлі памылку ў тэксце-вылучыце яе і націсніце Ctrl+Enter. Знайшлі памылку ў тэксце-вылучыце яе і націсніце кнопку «Паведаміць пра памылку».

Сайт компании Вакансии

Размяшчэнне рэкламы

Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце

Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ

Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude

Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Anonymous

0

совсем недавно писали что новые модели OpenAI глючнее старых
[Часть комментария скрыта за нарушение правил общения. Вот они, их всего пять: https://devby.io/news/comments-2024] "Новые модели ИИ от OpenAI стали ошибаются чаще, несмотря на улучшения Вот вам и ИИ" при чем создатели оно не представляют отчего так

Anonymous

0

https://tech.co/news/fake-company-ai-agents-disaster "Фальшивая компания, в которой работали только агенты с искусственным интеллектом, оказалась полной катастрофой": "...моделям ИИ было поручено выполнить задачи, которые необходимо было бы выполнить сотрудникам небольшого стартапа по разработке программного обеспечения"
https://tech.yahoo.com/ai/articles/next-assignment-babysitting-ai-081502817.html
"Во время выполнения одной задачи агент не мог найти нужного человека для общения в чате и решил вместо этого создать пользователя с тем же именем." порция лулзов

Увайдзіце, каб пакінуць каментарый