Топ-модели для кодинга ошибаются в четверти случаев — исследование
Популярные ИИ-инструменты для программирования все еще допускают серьезные ошибки и требуют постоянного контроля со стороны разработчиков.
Популярные ИИ-инструменты для программирования все еще допускают серьезные ошибки и требуют постоянного контроля со стороны разработчиков.
Популярные ИИ-инструменты для программирования все еще допускают серьезные ошибки и требуют постоянного контроля со стороны разработчиков.
К такому выводу пришли исследователи Университета Ватерлоо, представившие результаты нового бенчмарка в задачах генерации структурированного кода. В рамках исследования ученые протестировали 11 крупных языковых моделей на 44 заданиях, связанных с созданием программных ответов в строго заданных форматах, включая JSON, XML, Markdown и другие структурированные схемы.
Результаты показали, что даже самые продвинутые коммерческие модели достигают точности лишь около 75%. Это означает, что примерно один из четырех ответов оказывается некорректным с точки зрения структуры или содержания. У open-source-моделей показатели оказались еще ниже — около 65%.
Ученые указывают, что речь идет не только о синтаксических ошибках. Важным критерием оценки была способность ИИ корректно выполнять поставленную задачу и создавать результат, который можно без дополнительной переработки встроить в реальный рабочий процесс разработки.
По словам соавтора исследования, аспиранта факультета компьютерных наук Донгфу Цзяна, модели относительно успешно справляются с задачами, связанными с текстовыми структурами, однако демонстрируют значительно более слабые результаты при генерации кода для визуальных интерфейсов, веб-страниц или мультимедийных приложений.
Авторы работы предупреждают, что широкое внедрение автономных ИИ-агентов в разработку программного обеспечения может увеличить технологические риски, если компании будут полагаться на такие системы без достаточной проверки результатов. По их оценке, на текущем этапе ИИ следует рассматривать прежде всего как инструмент повышения продуктивности, а не как самостоятельного разработчика.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.