Дапамажыце dev.by 🤍
Падтрымаць

Усе вядучыя мадэлі ШІ правалілі новы тэст на агульны інтэлект

Новы бенчмарк ARC-AGI-2, распрацаваны для ацэнкі агульнага інтэлекту штучнага інтэлекту, паказаў значнае адставанне магчымасцей сучасных ШІ ад чалавечага розуму ў задачах, што патрабуюць адаптацыі і разумення новых канцэпцый. Большасць вядучых ШІ-мадэляў прадэманстравалі надзвычай нізкія вынікі ў гэтым выпрабаванні, у адрозненне ад групы людзей.

Пакінуць каментарый
Усе вядучыя мадэлі ШІ правалілі новы тэст на агульны інтэлект

Новы бенчмарк ARC-AGI-2, распрацаваны для ацэнкі агульнага інтэлекту штучнага інтэлекту, паказаў значнае адставанне магчымасцей сучасных ШІ ад чалавечага розуму ў задачах, што патрабуюць адаптацыі і разумення новых канцэпцый. Большасць вядучых ШІ-мадэляў прадэманстравалі надзвычай нізкія вынікі ў гэтым выпрабаванні, у адрозненне ад групы людзей.

Фонд Arc Prize Foundation, сузаснавальнікам якога з’яўляецца вядомы даследчык у галіне штучнага інтэлекту Франсуа Шоле, абвясціў пра стварэнне новага, больш прасунутага тэсту ARC-AGI-2 для вымярэння агульнага інтэлекту перадавых ШІ-мадэляў. Тэст уяўляе сабой серыю галаваломак, дзе ШІ павінен вызначыць візуальныя заканамернасці, аналізуючы рознакаляровыя квадраты, і на гэтай падставе ствараць правільны працяг ўзору. Асаблівасцю ARC-AGI-2 з’яўляецца арыентацыя на тое, каб мадэлі не маглі выкарыстоўваць назапашаны досвед і былі вымушаныя адаптавацца да зусім новых задач.

Вынікі тэставання паказалі, што разважальныя мадэлі, такія як o1-pro ад OpenAI і R1 ад DeepSeek, набралі ўсяго ад 1% да 1,3%. Яшчэ горшыя вынікі прадэманстравалі мадэлі без лагічнага мыслення, у тым ліку GPT-4.5, Claude 3.7 Sonnet і Gemini 2.0 Flash, якія набралі менш за 1%. У той жа час тэставанне, праведзенае Arc Prize Foundation з удзелам больш за 400 чалавек, паказала, што ў сярэднім выпрабавальныя групы правільна адказалі на 60% заданняў. Гэта сведчыць пра істотны разрыў паміж цяперашнімі магчымасцямі ШІ і чалавечым інтэлектам у вырашэнні задач, якія патрабуюць гнуткасці і разумення новых канцэпцый.

Распрацоўка ARC-AGI-2 была выклікана неабходнасцю выправіць недахопы папярэдняй версіі тэсту, ARC-AGI-1. Франсуа Шоле адзначыў, што новы тэст з’яўляецца больш дакладным паказчыкам рэальнага інтэлекту ШІ-мадэляў. ARC-AGI-2 выключае магчымасць вырашэння задач «метадам грубай сілы», калі мадэлі выкарыстоўваюць велізарныя вылічальныя магутнасці для перабору ўсіх магчымых варыянтаў. Каб вырашыць гэтую праблему, у ARC-AGI-2 была ўведзена метрыка эфектыўнасці, якая патрабуе ад ШІ інтэрпрэтаваць патерны «на хаду», а не спадзявацца на запамінанне.

Папярэдняя версія тэсту, ARC-AGI-1, заставалася вядучай метрыкай каля пяці гадоў, пакуль у снежні 2024 года OpenAI не выпусціла сваю прасунутую мадэль разважанняў o3. Гэтая мадэль змагла перасягнуць усе іншыя ШІ-мадэлі і нават дасягнуць чалавечага ўзроўню прадукцыйнасці ў тэстах ARC-AGI-1. Аднак гэтыя поспехі былі дасягнутыя дзякуючы значным вылічальным выдаткам. Версія мадэлі o3 пад назвай o3 (low), якая першай дасягнула высокіх вынікаў на ARC-AGI-1 (75,7%), паказала на ARC-AGI-2 усяго 4%, пры гэтым змарнаваўшы на рашэнне кожнай задачы вылічальныя рэсурсы коштам 200 даляраў.

Tencent выпусціла ШІ-мадэль T1 якая канкуруе з DeepSeek R1
Tencent выпусціла ШІ-мадэль T1, якая канкуруе з DeepSeek R1
Па тэме
Tencent выпусціла ШІ-мадэль T1, якая канкуруе з DeepSeek R1
Паўночная Карэя стварае новы цэнтр кібератак з выкарыстаннем ШІ
Паўночная Карэя стварае новы цэнтр кібератак з выкарыстаннем ШІ
Па тэме
Паўночная Карэя стварае новы цэнтр кібератак з выкарыстаннем ШІ
Захоп AI Slop: як генератыўны ШІ «брутфорсіць» інтэрнэт і змяняе анлайн-рэальнасць
Захоп AI Slop: як генератыўны ШІ «брутфорсіць» інтэрнэт і змяняе анлайн-рэальнасць
Па тэме
Захоп AI Slop: як генератыўны ШІ «брутфорсіць» інтэрнэт і змяняе анлайн-рэальнасць
Чытайце таксама
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.