Николай Чикишев world 17 чэрвеня 2026, 14:22

Новы фрэймворк зніжае выдаткі на працу ШІ-агентаў на 50%

Даследчыкі са Стэнфардскага ўніверсітэта прадставілі DeLM — фрэймворк для працы некалькіх ШІ-агентаў без цэнтральнага кіруючага агента.

Пакінуць каментарый

Новы фрэймворк зніжае выдаткі на працу ШІ-агентаў на 50%

Даследчыкі са Стэнфардскага ўніверсітэта прадставілі DeLM — фрэймворк для працы некалькіх ШІ-агентаў без цэнтральнага кіруючага агента.

У многіх сучасных сістэмах адзін галоўны агент разбівае задачу на падзадачы, размяркоўвае іх між іншымі агентамі, збірае адказы, абагульняе вынікі і запускае наступны этап працы. Даследчыкі лічаць, што такая архітэктура дрэнна маштабуецца: галоўны агент ператвараецца ў вузкае месца, а карысная інфармацыя можа губляцца або скажацца пры пераказе.

DeLM арганізаваны іначай. Замест цэнтральнага «аркестратара» агенты працуюць паралельна, бяруць задачы з агульнай чаргі і запісваюць вынікі ў агульны кантэкст. Гэты кантэкст утрымлівае кароткія правераныя зводкі — gists — пра знойдзеныя рашэнні, частковыя высновы, абмежаванні і няўдалыя спробы.

Так агенты могуць бачыць, што ўжо прабавалі іншыя, не паўтараць чужыя памылкі і развіваць знойдзеныя рашэнні. Пры неабходнасці яны могуць раскрыць кароткую зводку і паглядзець больш падрабязныя доказы або зыходныя дадзеныя.

Даследчыкі называюць гэта дэцэнтралізаванай моўнай мадэллю. Галоўная ідэя ў тым, што прагрэс назапашваецца ў агульным стане задачы, а не праходзіць кожны раз праз аднаго кіруючага агента.

На практыцы гэта павінна зніжаць выдаткі і паскараць працу. Калі агенты не перачытваюць адныя і тыя ж дакументы, не паўтараюць няўдалыя гіпотэзы і не чакаюць пастаянных указанняў ад цэнтральнага кантролера, сістэма выдае менш токенаў і часу.

На бенчмарку SWE-bench Verified, які правярае здольнасць ІІ вырашаць рэальныя задачы ў распрацоўцы ПА, DeLM паказаў вынік на 10,5% лепш за самы моцны базавы падыход і знізіў кошт адной задачы прыкладна на 50%.

Фрэймворк таксама пратэставалі на LongBench-v2 Multi-Doc QA — бенчмарку для задач з доўгім кантэкстам і некалькімі дакументамі. Паводле дадзеных даследчыкаў, DeLM паказаў найвышэйшую дакладнасць сярод чатырох сямействаў мадэляў, у тым GPT-5.4, Claude Sonnet, Gemini Flash і DeepSeek-V4-Pro.

DeLM можа быць карысны не толькі ў праграмаванні. VentureBeat адзначае, што такі падыход пасуе для адладкі кода, аналізу вялікіх набораў дакументаў, пошуку адказаў па некалькіх крыніцах ды іншых задачах, дзе некалькі агентаў могуць паралельна правяраць розныя гіпотэзы.