Дапамажыце dev.by 🤍
Падтрымаць

Турнір па вайб-кодынгу скончыўся правалам — пераможца вырашыў толькі 7,5% задач

Арганізатары спаборніцтва па ШІ-праграмаванні K Prize апублікавалі першыя вынікі — і яны аказаліся нечакана нізкімі.

1 каментарый
Турнір па вайб-кодынгу скончыўся правалам — пераможца вырашыў толькі 7,5% задач

Арганізатары спаборніцтва па ШІ-праграмаванні K Prize апублікавалі першыя вынікі — і яны аказаліся нечакана нізкімі.

K Prize — ініцыятыва некамерцыйнай арганізацыі Laude Institute пры падтрымцы сузаснавальніка Databricks і Perplexity Эндзі Канвінскі. Асаблівасць спаборніцтва заключаецца ў тым, што заданні бяруцца са свежых задач з GitHub. Гэта выключае магчымасць падгонкі ШІ пад тэст.

Прызавы фонд першага раўнда склаў $50 000, а для першага опенсорс-рашэння, якое пераадолее мяжу ў 90%, прадугледжаны прыз у памеры $1 000 000.

Пераможцам першага раўнда конкурсу стаў інжынер-промптар з Бразіліі Эдуарда Роша дэ Андрадэ, але яго канчатковы вынік — усяго 7,5% правільных рашэнняў. «Мы хацелі зрабіць па-сапраўднаму складаны бэнчмарк — і гэта атрымалася», — адзначыў Канвінскі.

Арганізатары запэўніваюць: папулярныя тэсты накшталт SWE-Bench ужо занадта лёгкія, і многія мадэлі вучацца праходзіць іх спецыяльна. Для K Prize заданні выбіраліся сярод новых, нядаўна апублікаваных на GitHub праблем, і ніхто не мог натрэніраваць свае алгарытмы загадзя.

Для параўнання: на тэсце SWE-Bench лепшыя мадэлі паказваюць да 75% паспяховых рашэнняў на простым узроўні і 34% на складаным. У K Prize ні адна з удзельнічаючых мадэляў не пераадолела нават 10% парог. Эксперты лічаць, што настолькі нізкія вынікі — важны сігнал для рынку, дзе заяўляюць аб «ШІ-праграмістах», быццам ужо здольных замяніць людзей.

Стваральнікі конкурсу плануюць працягваць выпрабаванні, каб атрымаць аб’ектыўную карціну рэальных магчымасцей ШІ-распрацоўкі без штучных падгонак. Як заявіў Канвінскі: «Калі нашы лепшыя сістэмы не могуць справіцца нават з 10% новых задач, час паглядзець на індустрыю без ружовых акуляраў».

«Спрабаваў не памерці»: польскі праграміст перамог мадэль OpenAI на турніры па кодынгу
«Спрабаваў не памерці»: польскі праграміст перамог мадэль OpenAI на турніры па кодынгу
Па тэме
«Спрабаваў не памерці»: польскі праграміст перамог мадэль OpenAI на турніры па кодынгу
Сталяр барбер фермер. Айцішнікі распавядаюць чым зоймуцца калі ШІ забярэ працу (і збіраюць падушку)
Сталяр, барбер, фермер. Айцішнікі распавядаюць, чым зоймуцца, калі ШІ забярэ працу (і збіраюць падушку)
Па тэме
Сталяр, барбер, фермер. Айцішнікі распавядаюць, чым зоймуцца, калі ШІ забярэ працу (і збіраюць падушку)
Ідэя «10x-інжынераў» састарэла — ШІ ператворыць іх у «100x-інжынераў»
Ідэя «10x-інжынераў» састарэла — ШІ ператворыць іх у «100x-інжынераў»
Па тэме
Ідэя «10x-інжынераў» састарэла — ШІ ператворыць іх у «100x-інжынераў»
Чытайце таксама
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
«Нас чакае сапраўдная бойня»: інвестар пра будучыню рынку ШІ
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
Падлетак кінуў школу і вывучыў ML з дапамогай ChatGPT. Цяпер ён у OpenAI
1 каментарый
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной
Больш за 1000 супрацоўнікаў Amazon выступілі супраць укаранення ШІ любой цаной
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ можна ўзламаць, напісаўшы промпт у вершах

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

1

в это вбуханы миллиарды