🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Топ-модели для кодинга ошибаются в четверти случаев — исследование

Популярные ИИ-инструменты для программирования все еще допускают серьезные ошибки и требуют постоянного контроля со стороны разработчиков.

Оставить комментарий
Топ-модели для кодинга ошибаются в четверти случаев — исследование

Популярные ИИ-инструменты для программирования все еще допускают серьезные ошибки и требуют постоянного контроля со стороны разработчиков.

К такому выводу пришли исследователи Университета Ватерлоо, представившие результаты нового бенчмарка в задачах генерации структурированного кода. В рамках исследования ученые протестировали 11 крупных языковых моделей на 44 заданиях, связанных с созданием программных ответов в строго заданных форматах, включая JSON, XML, Markdown и другие структурированные схемы.

Результаты показали, что даже самые продвинутые коммерческие модели достигают точности лишь около 75%. Это означает, что примерно один из четырех ответов оказывается некорректным с точки зрения структуры или содержания. У open-source-моделей показатели оказались еще ниже — около 65%.

Ученые указывают, что речь идет не только о синтаксических ошибках. Важным критерием оценки была способность ИИ корректно выполнять поставленную задачу и создавать результат, который можно без дополнительной переработки встроить в реальный рабочий процесс разработки.

По словам соавтора исследования, аспиранта факультета компьютерных наук Донгфу Цзяна, модели относительно успешно справляются с задачами, связанными с текстовыми структурами, однако демонстрируют значительно более слабые результаты при генерации кода для визуальных интерфейсов, веб-страниц или мультимедийных приложений.

Авторы работы предупреждают, что широкое внедрение автономных ИИ-агентов в разработку программного обеспечения может увеличить технологические риски, если компании будут полагаться на такие системы без достаточной проверки результатов. По их оценке, на текущем этапе ИИ следует рассматривать прежде всего как инструмент повышения продуктивности, а не как самостоятельного разработчика.

Две угрозы мешают буму вайб-кодинга — мнение главы вайб-стартапа
Две угрозы мешают буму вайб-кодинга — мнение главы вайб-стартапа
По теме
Две угрозы мешают буму вайб-кодинга — мнение главы вайб-стартапа
Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью
Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью
По теме
Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью
Перелом в программировании произошёл за 2 последних месяца — автор «вайб-кодинга»
Перелом в программировании произошёл за 2 последних месяца — автор «вайб-кодинга»
По теме
Перелом в программировании произошёл за 2 последних месяца — автор «вайб-кодинга»
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Разрабы запустили проект OpenClaude на базе утекшего кода Claude Code
Разрабы запустили проект OpenClaude на базе утекшего кода Claude Code
Разрабы запустили проект OpenClaude на базе утекшего кода Claude Code
Парадокс ИИ: чем чаще им пользуются, тем меньше ему доверяют
Парадокс ИИ: чем чаще им пользуются, тем меньше ему доверяют
Парадокс ИИ: чем чаще им пользуются, тем меньше ему доверяют
«Я знал, что эта чушь случится»: Copilot вставляет рекламу в код на GitHub — разрабы возмущены
«Я знал, что эта чушь случится»: Copilot вставляет рекламу в код на GitHub — разрабы возмущены
«Я знал, что эта чушь случится»: Copilot вставляет рекламу в код на GitHub — разрабы возмущены
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.