ШІ-мадэлі ўжо спраўляюцца з тэхнічнымі задачамі лепш за людзей у сярэднім

Апошнія гады сістэмы на аснове штучнага інтэлекту імкліва прагрэсуюць і ўжо пераўзышлі сярэднестатыстычнага чалавека па цэлым шэрагу тэхнічных задач, дзе раней не вызначаліся, напрыклад, у матэматыцы і распазнаванні выяваў.

2 каментарыя

Visual Capitalist паказаў на інфаграфіцы, як выглядаюць вынікі мадэляў ШІ ў параўнанні з людзьмі. За аснову ўзятыя даныя з актуальнага даклада Artificial Intelligence Index Report Стэнфардскага ўніверсітэта. Гаворка ідзе пра 8 тыпаў задач, па якіх на бенчмарках ацэньваліся здольнасці ШІ:

  1. Класіфікацыя выяваў
  2. Візуальнае разважанне
  3. Чытанне і разуменне тэкстаў сярэдняга ўзроўню
  4. Разуменне англійскай мовы
  5. Шматзадачнае разуменне мовы
  6. Матэматыка на ўзроўні спаборніцтваў
  7. Навуковыя пытанні ўзроўню PhD
  8. Мультымадальнае разуменне і разважанне

Людзі пакуль лепш за ШІ толькі ў адной з задач — мультымадальным разуменні і разважанні, што прадугледжвае апрацоўку матэрыялу, прадстаўленага ў розных фарматах або дысцыплінах. Але разрыў імкліва скарачаецца. Напрыклад, у 2024 годзе мадэль o1 ад OpenAI набрала 78,2% на адпаведным бенчмарку MMMU — гэта ўсяго на 4,4 п. п. менш за вынік чалавека. Дарэчы, мадэль o1 мае адзін з самых нізкіх узроўняў «галюцынацый» сярод ШІ-мадэляў.

У 2024 годзе ШІ абышоў людзей у вырашэнні матэматычных задач спаборніцкага ўзроўню (108,78%), у разуменні англійскай мовы — яшчэ ў 2021 годзе (летась было 101,78%), у класіфікацыі выяваў — яшчэ ў 2016-м. У 2024 годзе ШІ стаў лепш за людзей у шматзадачным разуменні мовы (102,78%) і ў навуковых задачах узроўню PhD, прычым тут адбыўся двухразовы скачок — 108% супраць 47,78% у 2023 годзе.

У дакладзе Стэнфардскага ўніверсітэта можна паглядзець, як суадносіліся мадэлі ШІ з людзьмі па кожнай з задач за апошнія гады. Ён даступны па спасылцы.

Іншая меркаванне: дзякуючы вайб-кодынгу кампаніі будуць наймаць не менш, а наадварот больш
Па тэме
Іншая меркаванне: дзякуючы вайб-кодынгу кампаніі будуць наймаць не менш, а наадварот больш
Аўстралійскае радыё паўгода вёў ШІ — ніхто нават не заўважыў
Па тэме
Аўстралійскае радыё паўгода вёў ШІ — ніхто нават не заўважыў

Читать на dev.by