Турнир по вайб-кодингу закончился провалом — победитель решил лишь 7,5% задач
Организаторы соревнования по ИИ-программированию K Prize опубликовали первые результаты — и они оказались неожиданно низкими.
Организаторы соревнования по ИИ-программированию K Prize опубликовали первые результаты — и они оказались неожиданно низкими.
Организаторы соревнования по ИИ-программированию K Prize опубликовали первые результаты — и они оказались неожиданно низкими.
K Prize — инициатива некоммерческой организации Laude Institute при поддержке сооснователя Databricks и Perplexity Энди Конвински. Особенность состязания заключается в том, что задания берутся из свежих задач с GitHub. Это исключает возможность подгонки ИИ под тест.
Призовой фонд первого раунда составил $50 000, а для первого опенсорс‑решения, преодолевшего рубеж в 90%, предусмотрен приз в размере $1 000 000.
Победителем первого раунда конкурса стал инженер-промптер из Бразилии Эдуардо Роша де Андраде, но его итоговый результат — всего 7,5% правильных решений. «Мы хотели сделать по-настоящему сложный бенчмарк — и это получилось», — отметил Конвински.
Организаторы уверяют: популярные тесты вроде SWE‑Bench уже слишком легки, и многие модели учатся проходить их специально. Для K Prize задания выбирались среди новых, недавно опубликованных на GitHub проблем, и никто не мог натренировать свои алгоритмы заранее.
Для сравнения: на тесте SWE‑Bench лучшие модели показывают до 75% успешных решений на простом уровне и 34% на сложном. В K Prize ни одна из участвовавших моделей не преодолела даже 10% порог. Эксперты считают, что столь низкие результаты — важный сигнал для рынка, где заявляют о «ИИ‑программистах», якобы уже способных заменить людей.
Создатели конкурса планируют продолжать испытания, чтобы получить объективную картину реальных возможностей ИИ‑разработки без искусственных подгонок. Как заявил Конвински: «Если наши лучшие системы не могут справиться даже с 10% новых задач, пора взглянуть на индустрию без розовых очков».
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
в это вбуханы миллиарды