«Ён нібыта працуе»: 20 ШІ-агентаў стварылі браўзер з нуля за тыдзень
Кампанія Cursor правяла эксперымент, каб праверыць, наколькі далёка можна прасунуць аўтаномнае праграмаванне з дапамогай ШІ-агентаў. На працягу аднаго тыдня 20 ШІ-агентаў на базе мадэлі GPT-5.2 сумесна напісалі код вэб-браўзера.
Кампанія Cursor правяла эксперымент, каб праверыць, наколькі далёка можна прасунуць аўтаномнае праграмаванне з дапамогай ШІ-агентаў. На працягу аднаго тыдня 20 ШІ-агентаў на базе мадэлі GPT-5.2 сумесна напісалі код вэб-браўзера.
Пра эксперымент распавёў сузаснавальнік і генеральны дырэктар Cursor Майкл Труэл. Паводле яго слоў, агенты згенеравалі больш за мільён радкоў кода ў тысячах файлаў (у асобных паведамленнях фігуруе ацэнка звыш 1 мільёна радкоў). Рухавік браўзера быў напісаны з нуля на мове Rust, а зыходны код выкладзены ў адкрыты доступ на GitHub.
We built a browser with GPT-5.2 in Cursor. It ran uninterrupted for one week.
It’s 3M+ lines of code across thousands of files. The rendering engine is from-scratch in Rust with HTML parsing, CSS cascade, layout, text shaping, paint, and a custom JS VM.
Вынік далёкі ад сталых рухавікоў кшталту WebKit або Chromium, аднак браўзер «нібыта працуе»: простыя сайты адлюстроўваюцца хутка і ў цэлым карэктна. У Cursor адзначаюць, што сам факт працаздольнасці такога праекта, створанага аўтаномнымі агентамі за такі кароткі час, стаў нечаканасцю нават для каманды.
Спачатку даследчыкі спрабавалі «плоскую» мадэль каардынацыі, дзе ўсе 20 агентаў былі роўныя і самастойна выбіралі задачы, арыентуючыся на агульны дакумент. Гэты падыход праваліўся: эфектыўна працавалі толькі 2-3 агенты, а астатнія прастойвалі, чакаючы вызвалення задач.
Пасля гэтага Cursor перайшла да іерархічнай сістэмы з падзелам роляў. Частка агентаў стала «планавальнікамі»: яны вывучалі кодавую базу, фармавалі задачы і разбівалі іх на падзадачы. Астатнія выступалі ў ролі «выканаўцаў», якія бралі канкрэтныя заданні і даводзілі іх да канца, не думаючы пра праект у цэлым. Такая схема дазволіла маштабаваць працу і пазбегнуць вузкіх месцаў.
Па выніках эксперымента ў Cursor зрабілі выснову, што выбар мадэлі крытычна важны для доўгіх аўтаномных задач. GPT-5.2 паказала сябе лепш за канкурэнтаў: яна больш устойліва ўтрымлівала кантэкст, больш дакладна прытрымлівалася інструкцый і эфектыўней спраўлялася з планаваннем.
Claude Opus 4.5, паводле назіранняў даследчыкаў, часцей заўчасна завяршала задачы і шукала спрошчаныя шляхі рашэння. Цікава, што GPT-5.2 аказалася мацнейшай у ролі планавальніка, чым GPT-5.1-Codex, нягледзячы на тое, што апошняя спецыяльна аптымізаваная пад праграмаванне.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.