Дапамажыце dev.by 🤍
Падтрымаць

Усе вядучыя мадэлі ШІ правалілі новы тэст на агульны інтэлект

Новы бенчмарк ARC-AGI-2, распрацаваны для ацэнкі агульнага інтэлекту штучнага інтэлекту, паказаў значнае адставанне магчымасцей сучасных ШІ ад чалавечага розуму ў задачах, што патрабуюць адаптацыі і разумення новых канцэпцый. Большасць вядучых ШІ-мадэляў прадэманстравалі надзвычай нізкія вынікі ў гэтым выпрабаванні, у адрозненне ад групы людзей.

Пакінуць каментарый
Усе вядучыя мадэлі ШІ правалілі новы тэст на агульны інтэлект

Новы бенчмарк ARC-AGI-2, распрацаваны для ацэнкі агульнага інтэлекту штучнага інтэлекту, паказаў значнае адставанне магчымасцей сучасных ШІ ад чалавечага розуму ў задачах, што патрабуюць адаптацыі і разумення новых канцэпцый. Большасць вядучых ШІ-мадэляў прадэманстравалі надзвычай нізкія вынікі ў гэтым выпрабаванні, у адрозненне ад групы людзей.

Фонд Arc Prize Foundation, сузаснавальнікам якога з’яўляецца вядомы даследчык у галіне штучнага інтэлекту Франсуа Шоле, абвясціў пра стварэнне новага, больш прасунутага тэсту ARC-AGI-2 для вымярэння агульнага інтэлекту перадавых ШІ-мадэляў. Тэст уяўляе сабой серыю галаваломак, дзе ШІ павінен вызначыць візуальныя заканамернасці, аналізуючы рознакаляровыя квадраты, і на гэтай падставе ствараць правільны працяг ўзору. Асаблівасцю ARC-AGI-2 з’яўляецца арыентацыя на тое, каб мадэлі не маглі выкарыстоўваць назапашаны досвед і былі вымушаныя адаптавацца да зусім новых задач.

Вынікі тэставання паказалі, што разважальныя мадэлі, такія як o1-pro ад OpenAI і R1 ад DeepSeek, набралі ўсяго ад 1% да 1,3%. Яшчэ горшыя вынікі прадэманстравалі мадэлі без лагічнага мыслення, у тым ліку GPT-4.5, Claude 3.7 Sonnet і Gemini 2.0 Flash, якія набралі менш за 1%. У той жа час тэставанне, праведзенае Arc Prize Foundation з удзелам больш за 400 чалавек, паказала, што ў сярэднім выпрабавальныя групы правільна адказалі на 60% заданняў. Гэта сведчыць пра істотны разрыў паміж цяперашнімі магчымасцямі ШІ і чалавечым інтэлектам у вырашэнні задач, якія патрабуюць гнуткасці і разумення новых канцэпцый.

Распрацоўка ARC-AGI-2 была выклікана неабходнасцю выправіць недахопы папярэдняй версіі тэсту, ARC-AGI-1. Франсуа Шоле адзначыў, што новы тэст з’яўляецца больш дакладным паказчыкам рэальнага інтэлекту ШІ-мадэляў. ARC-AGI-2 выключае магчымасць вырашэння задач «метадам грубай сілы», калі мадэлі выкарыстоўваюць велізарныя вылічальныя магутнасці для перабору ўсіх магчымых варыянтаў. Каб вырашыць гэтую праблему, у ARC-AGI-2 была ўведзена метрыка эфектыўнасці, якая патрабуе ад ШІ інтэрпрэтаваць патерны «на хаду», а не спадзявацца на запамінанне.

Папярэдняя версія тэсту, ARC-AGI-1, заставалася вядучай метрыкай каля пяці гадоў, пакуль у снежні 2024 года OpenAI не выпусціла сваю прасунутую мадэль разважанняў o3. Гэтая мадэль змагла перасягнуць усе іншыя ШІ-мадэлі і нават дасягнуць чалавечага ўзроўню прадукцыйнасці ў тэстах ARC-AGI-1. Аднак гэтыя поспехі былі дасягнутыя дзякуючы значным вылічальным выдаткам. Версія мадэлі o3 пад назвай o3 (low), якая першай дасягнула высокіх вынікаў на ARC-AGI-1 (75,7%), паказала на ARC-AGI-2 усяго 4%, пры гэтым змарнаваўшы на рашэнне кожнай задачы вылічальныя рэсурсы коштам 200 даляраў.

Tencent выпусціла ШІ-мадэль T1 якая канкуруе з DeepSeek R1
Tencent выпусціла ШІ-мадэль T1, якая канкуруе з DeepSeek R1
Па тэме
Tencent выпусціла ШІ-мадэль T1, якая канкуруе з DeepSeek R1
Паўночная Карэя стварае новы цэнтр кібератак з выкарыстаннем ШІ
Паўночная Карэя стварае новы цэнтр кібератак з выкарыстаннем ШІ
Па тэме
Паўночная Карэя стварае новы цэнтр кібератак з выкарыстаннем ШІ
Захоп AI Slop: як генератыўны ШІ «брутфорсіць» інтэрнэт і змяняе анлайн-рэальнасць
Захоп AI Slop: як генератыўны ШІ «брутфорсіць» інтэрнэт і змяняе анлайн-рэальнасць
Па тэме
Захоп AI Slop: як генератыўны ШІ «брутфорсіць» інтэрнэт і змяняе анлайн-рэальнасць
Чытайце таксама
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
6 каментарыяў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.