Дапамажыце dev.by 🤍
Падтрымаць

ШІ-агенты прыжыліся ў софце, але па-за ІТ іх амаль няма — даследаванне

Кампанія Anthropic апублікавала даследаванне аб тым, як на практыцы выкарыстоўваюцца ШІ-агенты. Высветлілася, што агентныя сістэмы імкліва растуць у распрацоўцы ПЗ, але амаль не пранікнулі ў іншыя галіны.

Пакінуць каментарый
ШІ-агенты прыжыліся ў софце, але па-за ІТ іх амаль няма — даследаванне

Кампанія Anthropic апублікавала даследаванне аб тым, як на практыцы выкарыстоўваюцца ШІ-агенты. Высветлілася, што агентныя сістэмы імкліва растуць у распрацоўцы ПЗ, але амаль не пранікнулі ў іншыя галіны.

Кампанія прааналізавала мільёны рэальных узаемадзеянняў «чалавек-агент» у сваім кодынг-агенце Claude Code і ў публічным API. Паводле звестак Anthropic, амаль палова ўсіх agent tool calls праз публічны API прыходзіцца на софтверную інжынерыю — каля 50%.

Астатнія напрамкі значна адстаюць: бізнес-аналітыка, падтрымка кліентаў, продажы, фінансы і e-commerce набіраюць толькі «некалькі працэнтаў» кожны. Даследчыкі называюць гэта «раннімі днямі ўкаранення агентаў»: першымі агентныя інструменты маштабна пачалі ствараць і выкарыстоўваць менавіта распрацоўшчыкі, тады як іншыя індустрыі пакуль у асноўным толькі эксперыментуюць.

Размеркаванне выкарыстання агентаў па галінах: амаль 50% усіх выклікаў інструментаў прыходзіцца на распрацоўку ПЗ, тады як астатнія сферы — аўтаматызацыя бэк-офіса, маркетынг, продажы, фінансы, аналітыка, кібербяспека і іншыя — займаюць толькі невялікія долі, кожная менш за 10%. Крыніца: Anthropic.

Claude Code пачаў працаваць даўжэй без умяшання чалавека. Калі раней самыя доўгія сесіі працягваліся менш за 25 хвілін, то да студзеня 2026 года — ужо больш за 45 хвілін. Рост адбываўся паступова, а не скачком пасля выхаду новых версій мадэлі. У Anthropic лічаць, што справа не толькі ў паляпшэнні ШІ, але і ў тым, што карыстальнікі пачалі больш яму давяраць і даваць больш складаныя задачы. Пазней максімальная працягласць крыху знізілася — верагодна, з-за прытоку новых карыстальнікаў і больш кароткіх рабочых задач.

Дынаміка максімальнай аўтаномнай працы Claude Code (99,9-ты перцэнтыль): з канца верасня 2025 года працягласць самых доўгіх сесій вырасла з менш чым 25 хвілін да больш чым 45 хвілін да студзеня 2026 года, што адлюстроўвае паступовае павелічэнне аўтаномнасці сістэмы. Крыніца: Anthropic.

Асобна навукоўцы апісваюць эфект «deployment overhang»: мадэлі патэнцыйна здольныя на большую аўтаномнасць, чым тая, якую ім рэальна даюць у эксплуатацыі. Для параўнання кампанія прыводзіць знешнюю ацэнку METR: паводле яе Claude Opus 4.5 здольны вырашаць задачы з верагоднасцю поспеху 50% на ўзроўні задач, якія занялі б у чалавека амаль пяць гадзін, але ў рэальным выкарыстанні Claude Code «самыя доўгія» аўтаномныя адрэзкі істотна карацейшыя — прыкладна дзясяткі хвілін.

Даследчыкі ўказваюць, што гэтыя метрыкі не эквівалентныя (ацэнкі магчымасцяў у ідэалізаванай асяроддзі супраць паводзін у рэальным прадукце з паўзамі на ўдакладненні і ўмяшаннямі чалавека), але разрыў усё роўна ўказвае на тое, што практычнае выкарыстанне адстае ад «столі» магчымасцяў.

Карыстальніцкія паводзіны таксама змяняюцца з досведам. Пачаткоўцы ўключаюць рэжым поўнага auto-approve (калі агент працуе без ручнога пацвярджэння дзеянняў) прыкладна ў 20% сесій, але ў карыстальнікаў з вялікім досведам (парадку соцень сесій) доля auto-approve расце вышэй 40%. Адначасова злёгку расце і доля прыпыненняў з боку чалавека: прыкладна з 5% крокаў працы ў навічкоў да каля 9% у дасведчаных. Anthropic трактуе гэта не як страту кантролю, а як змену стратэгіі нагляду: пачынаючыя аддаюць перавагу пацвярджэнню амаль кожнага кроку, а дасведчаныя часцей даюць агенту «прастору», умешваючыся кропкава, калі нешта ідзе не так.

Размеркаванне задач па ўзроўні аўтаномнасці і рызыкі: большасць дзеянняў сканцэнтравана ў зоне нізкай рызыкі пры сярэдняй аўтаномнасці, тады як сегмент з адначасова высокай аўтаномнасцю і высокай рызыкай застаецца нешматлікім, але прысутнічае ў асноўным у сцэнарыях, звязаных з бяспекай, фінансамі і адчувальнымі дадзенымі. Крыніца: Anthropic.

Claude Code спыняецца сам і задае ўдакладняючыя пытанні часцей, чым людзі яго перапыняюць — асабліва на складаных задачах. На «максімальна складаных» мэтах агент ініцыюе прыпыненні больш чым у два разы часцей, чым на мінімальна складаных. Сярод тыповых прычын самапаўзы: выбар паміж прапанаванымі падыходамі, запыт дыягнастычных дадзеных/тэстаў, удакладненне патрабаванняў або запыт адсутных доступаў. У кампаніі лічаць гэта важным механізмам бяспекі: здольнасць мадэлі распазнаваць уласную нявызначанасць і запытваць пацверджанне дапаўняе знешнія контуры кантролю накшталт правоў доступу і чалавечых approval-працэдур.

Паводле аналізу публічнага API, пераважная большасць дзеянняў агентаў застаецца нізкарызыкоўнай і зваротнай, але ў крайніх выпадках ужо з’яўляюцца больш адчувальныя сцэнарыі, уключаючы кібербяспеку, фінансы і працу з медыцынскай інфармацыяй. Гэта можа азначаць, што па меры таго як агенты пачнуць шырэй выкарыстоўвацца па-за распрацоўкай ПЗ, будзе расці колькасць выпадкаў, дзе яны працуюць больш аўтаномна і пры гэтым задзейнічаны ў задачах з высокімі рызыкамі і сур’ёзнымі наступствамі.

У Telegram зявіўся афіцыйны ШІ-агент Manus
У Telegram з’явіўся афіцыйны ШІ-агент Manus
Па тэме
У Telegram з’явіўся афіцыйны ШІ-агент Manus
OpenAI наняла стваральніка віруснага ШІ-агента OpenClaw
OpenAI наняла стваральніка віруснага ШІ-агента OpenClaw
Па тэме
OpenAI наняла стваральніка віруснага ШІ-агента OpenClaw
ИИ-агент пристыдил разраба за то что тот отклонил его код
ИИ-агент пристыдил разраба за то, что тот отклонил его код
Па тэме
ИИ-агент пристыдил разраба за то, что тот отклонил его код
Чытайце таксама
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.