Новы фрэймворк зніжае выдаткі на працу ШІ-агентаў на 50%
Даследчыкі са Стэнфардскага ўніверсітэта прадставілі DeLM — фрэймворк для працы некалькіх ШІ-агентаў без цэнтральнага кіруючага агента.
Даследчыкі са Стэнфардскага ўніверсітэта прадставілі DeLM — фрэймворк для працы некалькіх ШІ-агентаў без цэнтральнага кіруючага агента.
Даследчыкі са Стэнфардскага ўніверсітэта прадставілі DeLM — фрэймворк для працы некалькіх ШІ-агентаў без цэнтральнага кіруючага агента.
У многіх сучасных сістэмах адзін галоўны агент разбівае задачу на падзадачы, размяркоўвае іх між іншымі агентамі, збірае адказы, абагульняе вынікі і запускае наступны этап працы. Даследчыкі лічаць, што такая архітэктура дрэнна маштабуецца: галоўны агент ператвараецца ў вузкае месца, а карысная інфармацыя можа губляцца або скажацца пры пераказе.
DeLM арганізаваны іначай. Замест цэнтральнага «аркестратара» агенты працуюць паралельна, бяруць задачы з агульнай чаргі і запісваюць вынікі ў агульны кантэкст. Гэты кантэкст утрымлівае кароткія правераныя зводкі — gists — пра знойдзеныя рашэнні, частковыя высновы, абмежаванні і няўдалыя спробы.
Так агенты могуць бачыць, што ўжо прабавалі іншыя, не паўтараць чужыя памылкі і развіваць знойдзеныя рашэнні. Пры неабходнасці яны могуць раскрыць кароткую зводку і паглядзець больш падрабязныя доказы або зыходныя дадзеныя.
Даследчыкі называюць гэта дэцэнтралізаванай моўнай мадэллю. Галоўная ідэя ў тым, што прагрэс назапашваецца ў агульным стане задачы, а не праходзіць кожны раз праз аднаго кіруючага агента.
На практыцы гэта павінна зніжаць выдаткі і паскараць працу. Калі агенты не перачытваюць адныя і тыя ж дакументы, не паўтараюць няўдалыя гіпотэзы і не чакаюць пастаянных указанняў ад цэнтральнага кантролера, сістэма выдае менш токенаў і часу.
На бенчмарку SWE-bench Verified, які правярае здольнасць ІІ вырашаць рэальныя задачы ў распрацоўцы ПА, DeLM паказаў вынік на 10,5% лепш за самы моцны базавы падыход і знізіў кошт адной задачы прыкладна на 50%.
Фрэймворк таксама пратэставалі на LongBench-v2 Multi-Doc QA — бенчмарку для задач з доўгім кантэкстам і некалькімі дакументамі. Паводле дадзеных даследчыкаў, DeLM паказаў найвышэйшую дакладнасць сярод чатырох сямействаў мадэляў, у тым GPT-5.4, Claude Sonnet, Gemini Flash і DeepSeek-V4-Pro.
DeLM можа быць карысны не толькі ў праграмаванні. VentureBeat адзначае, што такі падыход пасуе для адладкі кода, аналізу вялікіх набораў дакументаў, пошуку адказаў па некалькіх крыніцах ды іншых задачах, дзе некалькі агентаў могуць паралельна правяраць розныя гіпотэзы.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.