Николай Чикишев world 24 ліпеня 2025, 16:19

Турнір па вайб-кодынгу скончыўся правалам — пераможца вырашыў толькі 7,5% задач

Арганізатары спаборніцтва па ШІ-праграмаванні K Prize апублікавалі першыя вынікі — і яны аказаліся нечакана нізкімі.

K Prize — ініцыятыва некамерцыйнай арганізацыі Laude Institute пры падтрымцы сузаснавальніка Databricks і Perplexity Эндзі Канвінскі. Асаблівасць спаборніцтва заключаецца ў тым, што заданні бяруцца са свежых задач з GitHub. Гэта выключае магчымасць падгонкі ШІ пад тэст.

Прызавы фонд першага раўнда склаў $50 000, а для першага опенсорс-рашэння, якое пераадолее мяжу ў 90%, прадугледжаны прыз у памеры $1 000 000.

Пераможцам першага раўнда конкурсу стаў інжынер-промптар з Бразіліі Эдуарда Роша дэ Андрадэ, але яго канчатковы вынік — усяго 7,5% правільных рашэнняў. «Мы хацелі зрабіць па-сапраўднаму складаны бэнчмарк — і гэта атрымалася», — адзначыў Канвінскі.

Арганізатары запэўніваюць: папулярныя тэсты накшталт SWE-Bench ужо занадта лёгкія, і многія мадэлі вучацца праходзіць іх спецыяльна. Для K Prize заданні выбіраліся сярод новых, нядаўна апублікаваных на GitHub праблем, і ніхто не мог натрэніраваць свае алгарытмы загадзя.

Для параўнання: на тэсце SWE-Bench лепшыя мадэлі паказваюць да 75% паспяховых рашэнняў на простым узроўні і 34% на складаным. У K Prize ні адна з удзельнічаючых мадэляў не пераадолела нават 10% парог. Эксперты лічаць, што настолькі нізкія вынікі — важны сігнал для рынку, дзе заяўляюць аб «ШІ-праграмістах», быццам ужо здольных замяніць людзей.

Стваральнікі конкурсу плануюць працягваць выпрабаванні, каб атрымаць аб’ектыўную карціну рэальных магчымасцей ШІ-распрацоўкі без штучных падгонак. Як заявіў Канвінскі: «Калі нашы лепшыя сістэмы не могуць справіцца нават з 10% новых задач, час паглядзець на індустрыю без ружовых акуляраў».