ШІ-мадэлі ўжо спраўляюцца з тэхнічнымі задачамі лепш за людзей у сярэднім
Апошнія гады сістэмы на аснове штучнага інтэлекту імкліва прагрэсуюць і ўжо пераўзышлі сярэднестатыстычнага чалавека па цэлым шэрагу тэхнічных задач, дзе раней не вызначаліся, напрыклад, у матэматыцы і распазнаванні выяваў.
Visual Capitalist паказаў на інфаграфіцы, як выглядаюць вынікі мадэляў ШІ ў параўнанні з людзьмі. За аснову ўзятыя даныя з актуальнага даклада Artificial Intelligence Index Report Стэнфардскага ўніверсітэта. Гаворка ідзе пра 8 тыпаў задач, па якіх на бенчмарках ацэньваліся здольнасці ШІ:
- Класіфікацыя выяваў
- Візуальнае разважанне
- Чытанне і разуменне тэкстаў сярэдняга ўзроўню
- Разуменне англійскай мовы
- Шматзадачнае разуменне мовы
- Матэматыка на ўзроўні спаборніцтваў
- Навуковыя пытанні ўзроўню PhD
- Мультымадальнае разуменне і разважанне
Людзі пакуль лепш за ШІ толькі ў адной з задач — мультымадальным разуменні і разважанні, што прадугледжвае апрацоўку матэрыялу, прадстаўленага ў розных фарматах або дысцыплінах. Але разрыў імкліва скарачаецца. Напрыклад, у 2024 годзе мадэль o1 ад OpenAI набрала 78,2% на адпаведным бенчмарку MMMU — гэта ўсяго на 4,4 п. п. менш за вынік чалавека. Дарэчы, мадэль o1 мае адзін з самых нізкіх узроўняў «галюцынацый» сярод ШІ-мадэляў.
У 2024 годзе ШІ абышоў людзей у вырашэнні матэматычных задач спаборніцкага ўзроўню (108,78%), у разуменні англійскай мовы — яшчэ ў 2021 годзе (летась было 101,78%), у класіфікацыі выяваў — яшчэ ў 2016-м. У 2024 годзе ШІ стаў лепш за людзей у шматзадачным разуменні мовы (102,78%) і ў навуковых задачах узроўню PhD, прычым тут адбыўся двухразовы скачок — 108% супраць 47,78% у 2023 годзе.
У дакладзе Стэнфардскага ўніверсітэта можна паглядзець, як суадносіліся мадэлі ШІ з людзьмі па кожнай з задач за апошнія гады. Ён даступны па спасылцы.
Читать на dev.by