16 ИИ-агентов создали C-компилятор на Rust за 2 недели
Anthropic провела необычный эксперимент: сразу 16 версий модели Claude Opus 4.6 работали вместе над созданием полноценного C-компилятора. Проект занял около двух недель и потребовал почти 2 000 сессий, а расходы на API составили примерно $20 000.
Anthropic провела необычный эксперимент: сразу 16 версий модели Claude Opus 4.6 работали вместе над созданием полноценного C-компилятора. Проект занял около двух недель и потребовал почти 2 000 сессий, а расходы на API составили примерно $20 000.
Руководил экспериментом исследователь Николас Карлини. Он разместил каждого ИИ-агента в отдельном Docker-контейнере и подключил их к общему Git-репозиторию. Модели самостоятельно выбирали задачи, фиксировали их через lock-файлы, отправляли готовый код и даже разрешали merge-конфликты — без центрального управляющего агента.
В результате система сгенерировала около 100 000 строк кода на Rust. Получившийся компилятор способен собирать ядро Linux 6.9 для архитектур x86, ARM и RISC-V, а также компилировать крупные open-source-проекты вроде PostgreSQL, SQLite, Redis и FFmpeg. В наборе стресс-тестов GCC он показал 99-процентную успешность и даже смог запустить культовую игру Doom — неформальный «краш-тест» для подобных инструментов.
Однако полностью автономным этот проект назвать сложно. Карлини пришлось создать сложную инфраструктуру (тестовые среды, CI-пайплайны и системы обратной связи), чтобы компенсировать типичные слабости языковых моделей. Например, слишком подробные логи «засоряли» контекст и мешали агентам понимать собственные задачи, а отсутствие чувства времени приводило к многочасовым бесполезным прогонам тестов.
У компилятора все еще есть серьезные ограничения. Он генерирует менее эффективный код, чем GCC, в нем остаются ошибки в ассемблере и линкере, а также нет поддержки 16-битного режима, который нужен для загрузки Linux. По мере увеличения объема проекта ИИ-агенты всt чаще нарушали работу уже готовых функций — это показывает, что современным моделям пока сложно стабильно работать с большими кодовыми базами. В этом эксперименте предел более-менее автономной разработки оказался на уровне около 100 000 строк кода.
Отдельные вопросы вызвало и определение «clean room». Хотя агенты не имели доступа к интернету во время разработки, сама модель обучалась на огромных массивах публичного кода, включая существующие компиляторы. Кроме того, $20 000 — лишь стоимость токенов: в нее не входят миллиарды, потраченные на обучение модели, и человеческая работа по проектированию среды.
Тем не менее эксперимент демонстрирует заметный прогресс. Еще год назад языковые модели не могли создать функциональный мультиархитектурный компилятор даже при серьезной поддержке человека. Подход с параллельными агентами, координирующимися через Git, может стать новым паттерном для агентной разработки.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Подождите еще немного. Надо всеголишь пару миллиардова инвестиций и миллионы ват энергии и оно сможет
ai slop