Николай Чикишев 25 сакавіка 2025, 12:32

Усе вядучыя мадэлі ШІ правалілі новы тэст на агульны інтэлект

Новы бенчмарк ARC-AGI-2, распрацаваны для ацэнкі агульнага інтэлекту штучнага інтэлекту, паказаў значнае адставанне магчымасцей сучасных ШІ ад чалавечага розуму ў задачах, што патрабуюць адаптацыі і разумення новых канцэпцый. Большасць вядучых ШІ-мадэляў прадэманстравалі надзвычай нізкія вынікі ў гэтым выпрабаванні, у адрозненне ад групы людзей.

Пакінуць каментарый

Усе вядучыя мадэлі ШІ правалілі новы тэст на агульны інтэлект

Новы бенчмарк ARC-AGI-2, распрацаваны для ацэнкі агульнага інтэлекту штучнага інтэлекту, паказаў значнае адставанне магчымасцей сучасных ШІ ад чалавечага розуму ў задачах, што патрабуюць адаптацыі і разумення новых канцэпцый. Большасць вядучых ШІ-мадэляў прадэманстравалі надзвычай нізкія вынікі ў гэтым выпрабаванні, у адрозненне ад групы людзей.

Фонд Arc Prize Foundation, сузаснавальнікам якога з’яўляецца вядомы даследчык у галіне штучнага інтэлекту Франсуа Шоле, абвясціў пра стварэнне новага, больш прасунутага тэсту ARC-AGI-2 для вымярэння агульнага інтэлекту перадавых ШІ-мадэляў. Тэст уяўляе сабой серыю галаваломак, дзе ШІ павінен вызначыць візуальныя заканамернасці, аналізуючы рознакаляровыя квадраты, і на гэтай падставе ствараць правільны працяг ўзору. Асаблівасцю ARC-AGI-2 з’яўляецца арыентацыя на тое, каб мадэлі не маглі выкарыстоўваць назапашаны досвед і былі вымушаныя адаптавацца да зусім новых задач.

Вынікі тэставання паказалі, што разважальныя мадэлі, такія як o1-pro ад OpenAI і R1 ад DeepSeek, набралі ўсяго ад 1% да 1,3%. Яшчэ горшыя вынікі прадэманстравалі мадэлі без лагічнага мыслення, у тым ліку GPT-4.5, Claude 3.7 Sonnet і Gemini 2.0 Flash, якія набралі менш за 1%. У той жа час тэставанне, праведзенае Arc Prize Foundation з удзелам больш за 400 чалавек, паказала, што ў сярэднім выпрабавальныя групы правільна адказалі на 60% заданняў. Гэта сведчыць пра істотны разрыў паміж цяперашнімі магчымасцямі ШІ і чалавечым інтэлектам у вырашэнні задач, якія патрабуюць гнуткасці і разумення новых канцэпцый.

Распрацоўка ARC-AGI-2 была выклікана неабходнасцю выправіць недахопы папярэдняй версіі тэсту, ARC-AGI-1. Франсуа Шоле адзначыў, што новы тэст з’яўляецца больш дакладным паказчыкам рэальнага інтэлекту ШІ-мадэляў. ARC-AGI-2 выключае магчымасць вырашэння задач «метадам грубай сілы», калі мадэлі выкарыстоўваюць велізарныя вылічальныя магутнасці для перабору ўсіх магчымых варыянтаў. Каб вырашыць гэтую праблему, у ARC-AGI-2 была ўведзена метрыка эфектыўнасці, якая патрабуе ад ШІ інтэрпрэтаваць патерны «на хаду», а не спадзявацца на запамінанне.

Папярэдняя версія тэсту, ARC-AGI-1, заставалася вядучай метрыкай каля пяці гадоў, пакуль у снежні 2024 года OpenAI не выпусціла сваю прасунутую мадэль разважанняў o3. Гэтая мадэль змагла перасягнуць усе іншыя ШІ-мадэлі і нават дасягнуць чалавечага ўзроўню прадукцыйнасці ў тэстах ARC-AGI-1. Аднак гэтыя поспехі былі дасягнутыя дзякуючы значным вылічальным выдаткам. Версія мадэлі o3 пад назвай o3 (low), якая першай дасягнула высокіх вынікаў на ARC-AGI-1 (75,7%), паказала на ARC-AGI-2 усяго 4%, пры гэтым змарнаваўшы на рашэнне кожнай задачы вылічальныя рэсурсы коштам 200 даляраў.