Турнир по вайб-кодингу закончился провалом — победитель решил лишь 7,5% задач

Организаторы соревнования по ИИ-программированию K Prize опубликовали первые результаты — и они оказались неожиданно низкими.

1 комментарий

K Prize — инициатива некоммерческой организации Laude Institute при поддержке сооснователя Databricks и Perplexity Энди Конвински. Особенность состязания заключается в том, что задания берутся из свежих задач с GitHub. Это исключает возможность подгонки ИИ под тест.

Призовой фонд первого раунда составил $50 000, а для первого опенсорс‑решения, преодолевшего рубеж в 90%, предусмотрен приз в размере $1 000 000.

Победителем первого раунда конкурса стал инженер-промптер из Бразилии Эдуардо Роша де Андраде, но его итоговый результат — всего 7,5% правильных решений. «Мы хотели сделать по-настоящему сложный бенчмарк — и это получилось», — отметил Конвински.

Организаторы уверяют: популярные тесты вроде SWE‑Bench уже слишком легки, и многие модели учатся проходить их специально. Для K Prize задания выбирались среди новых, недавно опубликованных на GitHub проблем, и никто не мог натренировать свои алгоритмы заранее.

Для сравнения: на тесте SWE‑Bench лучшие модели показывают до 75% успешных решений на простом уровне и 34% на сложном. В K Prize ни одна из участвовавших моделей не преодолела даже 10% порог. Эксперты считают, что столь низкие результаты — важный сигнал для рынка, где заявляют о «ИИ‑программистах», якобы уже способных заменить людей.

Создатели конкурса планируют продолжать испытания, чтобы получить объективную картину реальных возможностей ИИ‑разработки без искусственных подгонок. Как заявил Конвински: «Если наши лучшие системы не могут справиться даже с 10% новых задач, пора взглянуть на индустрию без розовых очков».

«Пытался не умереть»: польский программист победил модель OpenAI на турнире по кодингу
По теме
«Пытался не умереть»: польский программист победил модель OpenAI на турнире по кодингу
Столяр, барбер, фермер. Айтишники отвечают, чем займутся, если ИИ заберёт работу (и копят подушку)
По теме
Столяр, барбер, фермер. Айтишники отвечают, чем займутся, если ИИ заберёт работу (и копят подушку)
Идея «10x-инженеров» устарела — ИИ превратит их в «100x-инженеров»
По теме
Идея «10x-инженеров» устарела — ИИ превратит их в «100x-инженеров»

Читать на dev.by