200 инженеров в Варшаве обсуждают дыры в пайплайнах. Без вас?
Support us

Google представила «человеческий» тест для оценки ИИ-кода

Исследователи Google DeepMind представили новую систему Vibe Checker, которая оценивает код, созданный искусственным интеллектом, по стандартам, близким к человеческим.

Оставить комментарий
Google представила «человеческий» тест для оценки ИИ-кода

Исследователи Google DeepMind представили новую систему Vibe Checker, которая оценивает код, созданный искусственным интеллектом, по стандартам, близким к человеческим.

По словам авторов исследования, нынешние подходы к оценке ИИ-кода не отражают того, что действительно важно для программистов. Разработчики часто ценят не только функциональную корректность, но и такие аспекты, как обработка ошибок, читаемость и логическая согласованность кода.

Чтобы устранить этот разрыв, команда DeepMind создала таксономию VeriCode, включающую 30 проверяемых правил, сгруппированных в пять категорий: стиль и соглашения, логика и шаблоны, документация и комментарии, обработка ошибок, а также работа с библиотеками и API.

Каждая инструкция связана с проверкой линтера и позволяет настраивать параметры — например, длину строки, количество ветвлений или стиль документации. Источник: Zhong и соавт. Источник: Zhong et al.

Каждое правило VeriCode связано с конкретной проверкой линтера и дает однозначный результат: пройдено или не пройдено. На основе этой системы был разработан Vibe Checker — тестовая среда, расширяющая существующие наборы BigCodeBench и LiveCodeBench. Она содержит более двух тысяч реальных задач по программированию.

В ходе испытаний исследователи протестировали 31 языковую модель из 10 различных семейств. Даже самые продвинутые системы показали, что им сложно соблюдать несколько инструкций одновременно: при пяти указаниях средний показатель успешности снизился почти на 6%. Кроме того, был зафиксирован эффект «потери середины» — модели хуже следуют инструкциям, расположенным в середине запроса.

Оба метода проверяют как функциональную корректность кода, так и то, насколько точно он следует инструкциям. Источник: Zhong et al.

Ученые отметили, что подход с пошаговым редактированием (multi-turn editing) помогает немного улучшить выполнение инструкций, но при этом ухудшает общую функциональность кода. При сравнении результатов Vibe Checker с более чем 800 тысячами человеческих оценок из базы LMArena выяснилось, что сочетание двух факторов — функциональной корректности и следования инструкциям — гораздо лучше отражает представление разработчиков о «качественном» коде, чем любой из них по отдельности.

Авторы исследования считают, что выводы должны изменить подход к обучению языковых моделей. Сейчас большинство систем совершенствуются с помощью метода Reinforcement Learning with Verifiable Rewards (RLVR), где основное внимание уделяется прохождению тестов. Использование VeriCode позволит добавить к процессу обучения понимание человеческих критериев качества: ясности, структуры и логики.

Даже лучшие ИИ-модели испытывают трудности при выполнении нескольких инструкций одновременно. Таблица показывает показатели следования инструкциям (IF) на двух бенчмарках: светло-красный цвет обозначает результат ниже 50%, тёмно-красный — ниже 30%. Источник: Zhong et al.

Google DeepMind планирует опубликовать таксономию VeriCode в открытом доступе и адаптировать ее для других языков программирования. Исследователи уверены, что такие инструменты помогут точнее оценивать реальные возможности ИИ и сделать машинный код ближе к стандартам профессиональной разработки.

Разработчики теряют контроль над кодом созданным ИИ — мнение экспертов
Разработчики теряют контроль над кодом, созданным ИИ — мнение экспертов
По теме
Разработчики теряют контроль над кодом, созданным ИИ — мнение экспертов
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
По теме
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
ИИ-редактор кода Cursor запустил бесплатный курс для разработчиков
ИИ-редактор кода Cursor запустил бесплатный курс для разработчиков
По теме
ИИ-редактор кода Cursor запустил бесплатный курс для разработчиков
Читайте также
Google разрешила разработчикам обходить комиссию Play Store. Но не всем и, возможно, на время
Google разрешила разработчикам обходить комиссию Play Store. Но не всем и, возможно, на время
Google разрешила разработчикам обходить комиссию Play Store. Но не всем и, возможно, на время
Новая ИИ-модель от Cursor ускоряет программирование в 4 раза
Новая ИИ-модель от Cursor ускоряет программирование в 4 раза
Новая ИИ-модель от Cursor ускоряет программирование в 4 раза
2 комментария
«Пузырь? Неа, не слышали». Бигтехи сказали, что продолжат безумно тратиться на ИИ
«Пузырь? Неа, не слышали». Бигтехи сказали, что продолжат безумно тратиться на ИИ
«Пузырь? Неа, не слышали». Бигтехи сказали, что продолжат безумно тратиться на ИИ
1 комментарий
YouTube предложил сотрудникам увольняться по собственному
YouTube предложил сотрудникам увольняться по собственному
YouTube предложил сотрудникам увольняться по собственному
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.