Дапамажыце dev.by 🤍
Падтрымаць

Усе вядучыя мадэлі ШІ правалілі новы тэст на агульны інтэлект

Новы бенчмарк ARC-AGI-2, распрацаваны для ацэнкі агульнага інтэлекту штучнага інтэлекту, паказаў значнае адставанне магчымасцей сучасных ШІ ад чалавечага розуму ў задачах, што патрабуюць адаптацыі і разумення новых канцэпцый. Большасць вядучых ШІ-мадэляў прадэманстравалі надзвычай нізкія вынікі ў гэтым выпрабаванні, у адрозненне ад групы людзей.

Пакінуць каментарый
Усе вядучыя мадэлі ШІ правалілі новы тэст на агульны інтэлект

Новы бенчмарк ARC-AGI-2, распрацаваны для ацэнкі агульнага інтэлекту штучнага інтэлекту, паказаў значнае адставанне магчымасцей сучасных ШІ ад чалавечага розуму ў задачах, што патрабуюць адаптацыі і разумення новых канцэпцый. Большасць вядучых ШІ-мадэляў прадэманстравалі надзвычай нізкія вынікі ў гэтым выпрабаванні, у адрозненне ад групы людзей.

Фонд Arc Prize Foundation, сузаснавальнікам якога з’яўляецца вядомы даследчык у галіне штучнага інтэлекту Франсуа Шоле, абвясціў пра стварэнне новага, больш прасунутага тэсту ARC-AGI-2 для вымярэння агульнага інтэлекту перадавых ШІ-мадэляў. Тэст уяўляе сабой серыю галаваломак, дзе ШІ павінен вызначыць візуальныя заканамернасці, аналізуючы рознакаляровыя квадраты, і на гэтай падставе ствараць правільны працяг ўзору. Асаблівасцю ARC-AGI-2 з’яўляецца арыентацыя на тое, каб мадэлі не маглі выкарыстоўваць назапашаны досвед і былі вымушаныя адаптавацца да зусім новых задач.

Вынікі тэставання паказалі, што разважальныя мадэлі, такія як o1-pro ад OpenAI і R1 ад DeepSeek, набралі ўсяго ад 1% да 1,3%. Яшчэ горшыя вынікі прадэманстравалі мадэлі без лагічнага мыслення, у тым ліку GPT-4.5, Claude 3.7 Sonnet і Gemini 2.0 Flash, якія набралі менш за 1%. У той жа час тэставанне, праведзенае Arc Prize Foundation з удзелам больш за 400 чалавек, паказала, што ў сярэднім выпрабавальныя групы правільна адказалі на 60% заданняў. Гэта сведчыць пра істотны разрыў паміж цяперашнімі магчымасцямі ШІ і чалавечым інтэлектам у вырашэнні задач, якія патрабуюць гнуткасці і разумення новых канцэпцый.

Распрацоўка ARC-AGI-2 была выклікана неабходнасцю выправіць недахопы папярэдняй версіі тэсту, ARC-AGI-1. Франсуа Шоле адзначыў, што новы тэст з’яўляецца больш дакладным паказчыкам рэальнага інтэлекту ШІ-мадэляў. ARC-AGI-2 выключае магчымасць вырашэння задач «метадам грубай сілы», калі мадэлі выкарыстоўваюць велізарныя вылічальныя магутнасці для перабору ўсіх магчымых варыянтаў. Каб вырашыць гэтую праблему, у ARC-AGI-2 была ўведзена метрыка эфектыўнасці, якая патрабуе ад ШІ інтэрпрэтаваць патерны «на хаду», а не спадзявацца на запамінанне.

Папярэдняя версія тэсту, ARC-AGI-1, заставалася вядучай метрыкай каля пяці гадоў, пакуль у снежні 2024 года OpenAI не выпусціла сваю прасунутую мадэль разважанняў o3. Гэтая мадэль змагла перасягнуць усе іншыя ШІ-мадэлі і нават дасягнуць чалавечага ўзроўню прадукцыйнасці ў тэстах ARC-AGI-1. Аднак гэтыя поспехі былі дасягнутыя дзякуючы значным вылічальным выдаткам. Версія мадэлі o3 пад назвай o3 (low), якая першай дасягнула высокіх вынікаў на ARC-AGI-1 (75,7%), паказала на ARC-AGI-2 усяго 4%, пры гэтым змарнаваўшы на рашэнне кожнай задачы вылічальныя рэсурсы коштам 200 даляраў.

Tencent выпусціла ШІ-мадэль T1 якая канкуруе з DeepSeek R1
Tencent выпусціла ШІ-мадэль T1, якая канкуруе з DeepSeek R1
Па тэме
Tencent выпусціла ШІ-мадэль T1, якая канкуруе з DeepSeek R1
Паўночная Карэя стварае новы цэнтр кібератак з выкарыстаннем ШІ
Паўночная Карэя стварае новы цэнтр кібератак з выкарыстаннем ШІ
Па тэме
Паўночная Карэя стварае новы цэнтр кібератак з выкарыстаннем ШІ
Захоп AI Slop: як генератыўны ШІ «брутфорсіць» інтэрнэт і змяняе анлайн-рэальнасць
Захоп AI Slop: як генератыўны ШІ «брутфорсіць» інтэрнэт і змяняе анлайн-рэальнасць
Па тэме
Захоп AI Slop: як генератыўны ШІ «брутфорсіць» інтэрнэт і змяняе анлайн-рэальнасць
Чытайце таксама
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
Стваральнік OpenClaw не фанат агульнага ШІ. Кажа, будучыня за спецыялізаваным
Стваральнік OpenClaw не фанат агульнага ШІ. Кажа, будучыня за спецыялізаваным
Стваральнік OpenClaw не фанат агульнага ШІ. Кажа, будучыня за спецыялізаваным

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.