Встретимся на BelTech 3.0. Скидка 10% на билет: DEV
Support us

Турнир по вайб-кодингу закончился провалом — победитель решил лишь 7,5% задач

Организаторы соревнования по ИИ-программированию K Prize опубликовали первые результаты — и они оказались неожиданно низкими.

1 комментарий
Турнир по вайб-кодингу закончился провалом — победитель решил лишь 7,5% задач

Организаторы соревнования по ИИ-программированию K Prize опубликовали первые результаты — и они оказались неожиданно низкими.

K Prize — инициатива некоммерческой организации Laude Institute при поддержке сооснователя Databricks и Perplexity Энди Конвински. Особенность состязания заключается в том, что задания берутся из свежих задач с GitHub. Это исключает возможность подгонки ИИ под тест.

Призовой фонд первого раунда составил $50 000, а для первого опенсорс‑решения, преодолевшего рубеж в 90%, предусмотрен приз в размере $1 000 000.

Победителем первого раунда конкурса стал инженер-промптер из Бразилии Эдуардо Роша де Андраде, но его итоговый результат — всего 7,5% правильных решений. «Мы хотели сделать по-настоящему сложный бенчмарк — и это получилось», — отметил Конвински.

Организаторы уверяют: популярные тесты вроде SWE‑Bench уже слишком легки, и многие модели учатся проходить их специально. Для K Prize задания выбирались среди новых, недавно опубликованных на GitHub проблем, и никто не мог натренировать свои алгоритмы заранее.

Для сравнения: на тесте SWE‑Bench лучшие модели показывают до 75% успешных решений на простом уровне и 34% на сложном. В K Prize ни одна из участвовавших моделей не преодолела даже 10% порог. Эксперты считают, что столь низкие результаты — важный сигнал для рынка, где заявляют о «ИИ‑программистах», якобы уже способных заменить людей.

Создатели конкурса планируют продолжать испытания, чтобы получить объективную картину реальных возможностей ИИ‑разработки без искусственных подгонок. Как заявил Конвински: «Если наши лучшие системы не могут справиться даже с 10% новых задач, пора взглянуть на индустрию без розовых очков».

«Пытался не умереть»: польский программист победил модель OpenAI на турнире по кодингу
«Пытался не умереть»: польский программист победил модель OpenAI на турнире по кодингу
По теме
«Пытался не умереть»: польский программист победил модель OpenAI на турнире по кодингу
Столяр барбер фермер. Айтишники отвечают чем займутся если ИИ заберёт работу (и копят подушку)
Столяр, барбер, фермер. Айтишники отвечают, чем займутся, если ИИ заберёт работу (и копят подушку)
По теме
Столяр, барбер, фермер. Айтишники отвечают, чем займутся, если ИИ заберёт работу (и копят подушку)
Идея «10x-инженеров» устарела — ИИ превратит их в «100x-инженеров»
Идея «10x-инженеров» устарела — ИИ превратит их в «100x-инженеров»
По теме
Идея «10x-инженеров» устарела — ИИ превратит их в «100x-инженеров»
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

1

в это вбуханы миллиарды