Новый фреймворк снижает расходы на работу ИИ-агентов на 50%
Исследователи из Стэнфордского университета представили DeLM — фреймворк для работы нескольких ИИ-агентов без центрального управляющего агента.
Исследователи из Стэнфордского университета представили DeLM — фреймворк для работы нескольких ИИ-агентов без центрального управляющего агента.
Исследователи из Стэнфордского университета представили DeLM — фреймворк для работы нескольких ИИ-агентов без центрального управляющего агента.
Во многих современных системах один главный агент разбивает задачу на подзадачи, распределяет их между другими агентами, собирает ответы, обобщает результаты и запускает следующий этап работы. Исследователи считают, что такая архитектура плохо масштабируется: главный агент становится узким местом, а полезная информация может теряться или искажаться при пересказе.
DeLM устроен иначе. Вместо центрального «оркестратора» агенты работают параллельно, берут задачи из общей очереди и записывают результаты в общий контекст. Этот контекст содержит короткие проверенные сводки — gists — о найденных решениях, частичных выводах, ограничениях и неудачных попытках.
Так агенты могут видеть, что уже пробовали другие, не повторять чужие ошибки и развивать найденные решения. При необходимости они могут раскрыть короткую сводку и посмотреть более подробные доказательства или исходные данные.
Исследователи называют это децентрализованной языковой моделью. Главная идея в том, что прогресс накапливается в общем состоянии задачи, а не проходит каждый раз через одного управляющего агента.
На практике это должно снижать расходы и ускорять работу. Если агенты не перечитывают одни и те же документы, не повторяют неудачные гипотезы и не ждут постоянных указаний от центрального контроллера, система тратит меньше токенов и времени.
На бенчмарке SWE-bench Verified, который проверяет способность ИИ решать реальные задачи в разработке ПО, DeLM показал результат на 10,5% лучше самого сильного базового подхода и снизил стоимость одной задачи примерно на 50%.
Фреймворк также протестировали на LongBench-v2 Multi-Doc QA — бенчмарке для задач с длинным контекстом и несколькими документами. По данным исследователей, DeLM показал самую высокую точность среди четырех семейств моделей, включая GPT-5.4, Claude Sonnet, Gemini Flash и DeepSeek-V4-Pro.
DeLM может быть полезен не только в программировании. VentureBeat отмечает, что такой подход подходит для отладки кода, анализа больших наборов документов, поиска ответов по нескольким источникам и других задач, где несколько агентов могут параллельно проверять разные гипотезы.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.