Николай Чикишев world 17 июня 2026, 14:22

Новый фреймворк снижает расходы на работу ИИ-агентов на 50%

Исследователи из Стэнфордского университета представили DeLM — фреймворк для работы нескольких ИИ-агентов без центрального управляющего агента.

Оставить комментарий

Новый фреймворк снижает расходы на работу ИИ-агентов на 50%

Исследователи из Стэнфордского университета представили DeLM — фреймворк для работы нескольких ИИ-агентов без центрального управляющего агента.

Во многих современных системах один главный агент разбивает задачу на подзадачи, распределяет их между другими агентами, собирает ответы, обобщает результаты и запускает следующий этап работы. Исследователи считают, что такая архитектура плохо масштабируется: главный агент становится узким местом, а полезная информация может теряться или искажаться при пересказе.

DeLM устроен иначе. Вместо центрального «оркестратора» агенты работают параллельно, берут задачи из общей очереди и записывают результаты в общий контекст. Этот контекст содержит короткие проверенные сводки — gists — о найденных решениях, частичных выводах, ограничениях и неудачных попытках.

Так агенты могут видеть, что уже пробовали другие, не повторять чужие ошибки и развивать найденные решения. При необходимости они могут раскрыть короткую сводку и посмотреть более подробные доказательства или исходные данные.

Исследователи называют это децентрализованной языковой моделью. Главная идея в том, что прогресс накапливается в общем состоянии задачи, а не проходит каждый раз через одного управляющего агента.

На практике это должно снижать расходы и ускорять работу. Если агенты не перечитывают одни и те же документы, не повторяют неудачные гипотезы и не ждут постоянных указаний от центрального контроллера, система тратит меньше токенов и времени.

На бенчмарке SWE-bench Verified, который проверяет способность ИИ решать реальные задачи в разработке ПО, DeLM показал результат на 10,5% лучше самого сильного базового подхода и снизил стоимость одной задачи примерно на 50%.

Фреймворк также протестировали на LongBench-v2 Multi-Doc QA — бенчмарке для задач с длинным контекстом и несколькими документами. По данным исследователей, DeLM показал самую высокую точность среди четырех семейств моделей, включая GPT-5.4, Claude Sonnet, Gemini Flash и DeepSeek-V4-Pro.

DeLM может быть полезен не только в программировании. VentureBeat отмечает, что такой подход подходит для отладки кода, анализа больших наборов документов, поиска ответов по нескольким источникам и других задач, где несколько агентов могут параллельно проверять разные гипотезы.