🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью

Исследовательская организация METR опубликовала подробный анализ, который ставит под сомнение реальную эффективность ИИ-агентов в программировании.

Оставить комментарий
Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью

Исследовательская организация METR опубликовала подробный анализ, который ставит под сомнение реальную эффективность ИИ-агентов в программировании.

Ученые проверили, насколько результаты одного из главных отраслевых бенчмарков SWE-bench Verified соответствуют практике разработки с участием живых мейнтейнеров open source-проектов. Выяснилось, что около половины решений, которые автоматическая система оценки считает успешными, в реальности не были бы приняты в основной код.

В исследовании участвовали четыре действующих мейнтейнера трех популярных репозиториев: scikit-learn, Sphinx и pytest. Они провели ручной код-ревью 296 pull-request, созданных ИИ-моделями. Среди протестированных систем были Claude 3.5 Sonnet, Claude 3.7 Sonnet, Claude 4 Opus, Claude 4.5 Sonnet и GPT-5.

Разрыв между результатами автоматических тестов и реальным код-ревью: модели ИИ демонстрируют заметно более высокие показатели успешности в бенчмарке SWE-bench, чем при проверке опытными разработчиками, что указывает на переоценку их практической эффективности. Источник: METR.

Рецензенты не знали, написан ли код человеком или машиной. В результате оказалось, что в реальной разработке такие решения принимаются значительно реже: уровень одобрения оказался примерно на 24 процентных пункта ниже, чем показывали автоматические тесты SWE-bench. Даже если учитывать, что сами человеческие решения при повторной проверке одобрялись только в 68% случаев, разница между оценками алгоритма и мнением разработчиков все равно осталась статистически значимой.

Разработчики классифицировали причины отклонения решений на три основные категории. Первая — низкое качество кода, включая несоблюдение стандартов проекта и избыточную сложность. Вторая — нарушения существующей логики системы, когда исправление одной ошибки приводило к поломке других частей кода. Третья — базовые функциональные ошибки: значительная доля решений формально проходила тесты, но фактически не устраняла исходную проблему.

Исследование также выявило различия между моделями: переход от Claude 3.5 к Claude 3.7 сопровождался ростом общего числа «успешных» решений, но увеличением случаев функциональных дефектов, тогда как более поздние версии Anthropic улучшали прежде всего качество кода. GPT-5 в среднем демонстрировал более слабые результаты по этому критерию.

Дополнительный анализ показал, что результаты тестов могут создавать неверное впечатление о том, насколько хорошо ИИ работает в реальных задачах. По автоматическим данным Claude 4.5 Sonnet достигает 50-процентного уровня успеха на задачах, сопоставимых с 50 минутами работы разработчика. Однако оценки мейнтейнеров снизили этот показатель примерно до восьми минут. Это означает, что лабораторные метрики могут завышать реальную эффективность ИИ-агентов в несколько раз.

Авторы указывают, что исследование не доказывает фундаментального потолка возможностей современных моделей. В эксперименте ИИ-системы получали только одну попытку решения задачи, тогда как в реальной разработке код дорабатывается итеративно после замечаний.

Кроме того, часть процедур ревью была упрощена: например, мейнтейнеры работали без инструментов непрерывной интеграции. Тем не менее результаты показывают, что прямое использование бенчмарков для прогнозов о влиянии ИИ на рынок труда и индустрию разработки может приводить к серьезно завышенным ожиданиям.

Anthropic запустила ИИ для ревью кода. Разработчики спорят: полезно но дорого
Anthropic запустила ИИ для ревью кода. Разработчики спорят: полезно, но дорого
По теме
Anthropic запустила ИИ для ревью кода. Разработчики спорят: полезно, но дорого
Автор «вайб-кодинга» запустил open source-проект где ИИ сам проводит эксперименты
Автор «вайб-кодинга» запустил open source-проект, где ИИ сам проводит эксперименты
По теме
Автор «вайб-кодинга» запустил open source-проект, где ИИ сам проводит эксперименты
Перелом в программировании произошёл за 2 последних месяца — автор «вайб-кодинга»
Перелом в программировании произошёл за 2 последних месяца — автор «вайб-кодинга»
По теме
Перелом в программировании произошёл за 2 последних месяца — автор «вайб-кодинга»
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Главная ошибка CEO в работе с ИИ — мнение эксперта
Главная ошибка CEO в работе с ИИ — мнение эксперта
Главная ошибка CEO в работе с ИИ — мнение эксперта
«Это не карьерная лестница, а стена»: топ LinkedIn о будущем карьеры в эпоху ИИ
«Это не карьерная лестница, а стена»: топ LinkedIn о будущем карьеры в эпоху ИИ
«Это не карьерная лестница, а стена»: топ LinkedIn о будущем карьеры в эпоху ИИ
Slack обновили по-крупному — более 30 новых ИИ-функций
Slack обновили по-крупному — более 30 новых ИИ-функций
Slack обновили по-крупному — более 30 новых ИИ-функций
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.