Дапамажыце dev.by 🤍
Падтрымаць

Турнір па вайб-кодынгу скончыўся правалам — пераможца вырашыў толькі 7,5% задач

Арганізатары спаборніцтва па ШІ-праграмаванні K Prize апублікавалі першыя вынікі — і яны аказаліся нечакана нізкімі.

1 каментарый
Турнір па вайб-кодынгу скончыўся правалам — пераможца вырашыў толькі 7,5% задач

Арганізатары спаборніцтва па ШІ-праграмаванні K Prize апублікавалі першыя вынікі — і яны аказаліся нечакана нізкімі.

K Prize — ініцыятыва некамерцыйнай арганізацыі Laude Institute пры падтрымцы сузаснавальніка Databricks і Perplexity Эндзі Канвінскі. Асаблівасць спаборніцтва заключаецца ў тым, што заданні бяруцца са свежых задач з GitHub. Гэта выключае магчымасць падгонкі ШІ пад тэст.

Прызавы фонд першага раўнда склаў $50 000, а для першага опенсорс-рашэння, якое пераадолее мяжу ў 90%, прадугледжаны прыз у памеры $1 000 000.

Пераможцам першага раўнда конкурсу стаў інжынер-промптар з Бразіліі Эдуарда Роша дэ Андрадэ, але яго канчатковы вынік — усяго 7,5% правільных рашэнняў. «Мы хацелі зрабіць па-сапраўднаму складаны бэнчмарк — і гэта атрымалася», — адзначыў Канвінскі.

Арганізатары запэўніваюць: папулярныя тэсты накшталт SWE-Bench ужо занадта лёгкія, і многія мадэлі вучацца праходзіць іх спецыяльна. Для K Prize заданні выбіраліся сярод новых, нядаўна апублікаваных на GitHub праблем, і ніхто не мог натрэніраваць свае алгарытмы загадзя.

Для параўнання: на тэсце SWE-Bench лепшыя мадэлі паказваюць да 75% паспяховых рашэнняў на простым узроўні і 34% на складаным. У K Prize ні адна з удзельнічаючых мадэляў не пераадолела нават 10% парог. Эксперты лічаць, што настолькі нізкія вынікі — важны сігнал для рынку, дзе заяўляюць аб «ШІ-праграмістах», быццам ужо здольных замяніць людзей.

Стваральнікі конкурсу плануюць працягваць выпрабаванні, каб атрымаць аб’ектыўную карціну рэальных магчымасцей ШІ-распрацоўкі без штучных падгонак. Як заявіў Канвінскі: «Калі нашы лепшыя сістэмы не могуць справіцца нават з 10% новых задач, час паглядзець на індустрыю без ружовых акуляраў».

«Спрабаваў не памерці»: польскі праграміст перамог мадэль OpenAI на турніры па кодынгу
«Спрабаваў не памерці»: польскі праграміст перамог мадэль OpenAI на турніры па кодынгу
Па тэме
«Спрабаваў не памерці»: польскі праграміст перамог мадэль OpenAI на турніры па кодынгу
Сталяр барбер фермер. Айцішнікі распавядаюць чым зоймуцца калі ШІ забярэ працу (і збіраюць падушку)
Сталяр, барбер, фермер. Айцішнікі распавядаюць, чым зоймуцца, калі ШІ забярэ працу (і збіраюць падушку)
Па тэме
Сталяр, барбер, фермер. Айцішнікі распавядаюць, чым зоймуцца, калі ШІ забярэ працу (і збіраюць падушку)
Ідэя «10x-інжынераў» састарэла — ШІ ператворыць іх у «100x-інжынераў»
Ідэя «10x-інжынераў» састарэла — ШІ ператворыць іх у «100x-інжынераў»
Па тэме
Ідэя «10x-інжынераў» састарэла — ШІ ператворыць іх у «100x-інжынераў»
Чытайце таксама
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

1

в это вбуханы миллиарды