Турнір па вайб-кодынгу скончыўся правалам — пераможца вырашыў толькі 7,5% задач
Арганізатары спаборніцтва па ШІ-праграмаванні K Prize апублікавалі першыя вынікі — і яны аказаліся нечакана нізкімі.
Арганізатары спаборніцтва па ШІ-праграмаванні K Prize апублікавалі першыя вынікі — і яны аказаліся нечакана нізкімі.
Арганізатары спаборніцтва па ШІ-праграмаванні K Prize апублікавалі першыя вынікі — і яны аказаліся нечакана нізкімі.
K Prize — ініцыятыва некамерцыйнай арганізацыі Laude Institute пры падтрымцы сузаснавальніка Databricks і Perplexity Эндзі Канвінскі. Асаблівасць спаборніцтва заключаецца ў тым, што заданні бяруцца са свежых задач з GitHub. Гэта выключае магчымасць падгонкі ШІ пад тэст.
Прызавы фонд першага раўнда склаў $50 000, а для першага опенсорс-рашэння, якое пераадолее мяжу ў 90%, прадугледжаны прыз у памеры $1 000 000.
Пераможцам першага раўнда конкурсу стаў інжынер-промптар з Бразіліі Эдуарда Роша дэ Андрадэ, але яго канчатковы вынік — усяго 7,5% правільных рашэнняў. «Мы хацелі зрабіць па-сапраўднаму складаны бэнчмарк — і гэта атрымалася», — адзначыў Канвінскі.
Арганізатары запэўніваюць: папулярныя тэсты накшталт SWE-Bench ужо занадта лёгкія, і многія мадэлі вучацца праходзіць іх спецыяльна. Для K Prize заданні выбіраліся сярод новых, нядаўна апублікаваных на GitHub праблем, і ніхто не мог натрэніраваць свае алгарытмы загадзя.
Для параўнання: на тэсце SWE-Bench лепшыя мадэлі паказваюць да 75% паспяховых рашэнняў на простым узроўні і 34% на складаным. У K Prize ні адна з удзельнічаючых мадэляў не пераадолела нават 10% парог. Эксперты лічаць, што настолькі нізкія вынікі — важны сігнал для рынку, дзе заяўляюць аб «ШІ-праграмістах», быццам ужо здольных замяніць людзей.
Стваральнікі конкурсу плануюць працягваць выпрабаванні, каб атрымаць аб’ектыўную карціну рэальных магчымасцей ШІ-распрацоўкі без штучных падгонак. Як заявіў Канвінскі: «Калі нашы лепшыя сістэмы не могуць справіцца нават з 10% новых задач, час паглядзець на індустрыю без ружовых акуляраў».
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
в это вбуханы миллиарды