devby 17 лет! Вспоминаем переходный возраст и делимся виш-листом
Support us

Google представила «человеческий» тест для оценки ИИ-кода

Исследователи Google DeepMind представили новую систему Vibe Checker, которая оценивает код, созданный искусственным интеллектом, по стандартам, близким к человеческим.

Оставить комментарий
Google представила «человеческий» тест для оценки ИИ-кода

Исследователи Google DeepMind представили новую систему Vibe Checker, которая оценивает код, созданный искусственным интеллектом, по стандартам, близким к человеческим.

По словам авторов исследования, нынешние подходы к оценке ИИ-кода не отражают того, что действительно важно для программистов. Разработчики часто ценят не только функциональную корректность, но и такие аспекты, как обработка ошибок, читаемость и логическая согласованность кода.

Чтобы устранить этот разрыв, команда DeepMind создала таксономию VeriCode, включающую 30 проверяемых правил, сгруппированных в пять категорий: стиль и соглашения, логика и шаблоны, документация и комментарии, обработка ошибок, а также работа с библиотеками и API.

Каждая инструкция связана с проверкой линтера и позволяет настраивать параметры — например, длину строки, количество ветвлений или стиль документации. Источник: Zhong и соавт. Источник: Zhong et al.

Каждое правило VeriCode связано с конкретной проверкой линтера и дает однозначный результат: пройдено или не пройдено. На основе этой системы был разработан Vibe Checker — тестовая среда, расширяющая существующие наборы BigCodeBench и LiveCodeBench. Она содержит более двух тысяч реальных задач по программированию.

В ходе испытаний исследователи протестировали 31 языковую модель из 10 различных семейств. Даже самые продвинутые системы показали, что им сложно соблюдать несколько инструкций одновременно: при пяти указаниях средний показатель успешности снизился почти на 6%. Кроме того, был зафиксирован эффект «потери середины» — модели хуже следуют инструкциям, расположенным в середине запроса.

Оба метода проверяют как функциональную корректность кода, так и то, насколько точно он следует инструкциям. Источник: Zhong et al.

Ученые отметили, что подход с пошаговым редактированием (multi-turn editing) помогает немного улучшить выполнение инструкций, но при этом ухудшает общую функциональность кода. При сравнении результатов Vibe Checker с более чем 800 тысячами человеческих оценок из базы LMArena выяснилось, что сочетание двух факторов — функциональной корректности и следования инструкциям — гораздо лучше отражает представление разработчиков о «качественном» коде, чем любой из них по отдельности.

Авторы исследования считают, что выводы должны изменить подход к обучению языковых моделей. Сейчас большинство систем совершенствуются с помощью метода Reinforcement Learning with Verifiable Rewards (RLVR), где основное внимание уделяется прохождению тестов. Использование VeriCode позволит добавить к процессу обучения понимание человеческих критериев качества: ясности, структуры и логики.

Даже лучшие ИИ-модели испытывают трудности при выполнении нескольких инструкций одновременно. Таблица показывает показатели следования инструкциям (IF) на двух бенчмарках: светло-красный цвет обозначает результат ниже 50%, тёмно-красный — ниже 30%. Источник: Zhong et al.

Google DeepMind планирует опубликовать таксономию VeriCode в открытом доступе и адаптировать ее для других языков программирования. Исследователи уверены, что такие инструменты помогут точнее оценивать реальные возможности ИИ и сделать машинный код ближе к стандартам профессиональной разработки.

Разработчики теряют контроль над кодом созданным ИИ — мнение экспертов
Разработчики теряют контроль над кодом, созданным ИИ — мнение экспертов
По теме
Разработчики теряют контроль над кодом, созданным ИИ — мнение экспертов
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
По теме
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
ИИ-редактор кода Cursor запустил бесплатный курс для разработчиков
ИИ-редактор кода Cursor запустил бесплатный курс для разработчиков
По теме
ИИ-редактор кода Cursor запустил бесплатный курс для разработчиков
Читайте также
В Google AI Studio появилcя вайб-кодинг приложений
В Google AI Studio появилcя вайб-кодинг приложений
В Google AI Studio появилcя вайб-кодинг приложений
Людей заменит не ИИ, а клопы: они заняли офис Google в Нью-Йорке
Людей заменит не ИИ, а клопы: они заняли офис Google в Нью-Йорке
Людей заменит не ИИ, а клопы: они заняли офис Google в Нью-Йорке
5 комментариев
Claude Code теперь доступен в браузере и на iOS
Claude Code теперь доступен в браузере и на iOS
Claude Code теперь доступен в браузере и на iOS
ChatGPT разорит, DeepSeek озолотит: чат-ботам дали в управление $10K, вот что было дальше
ChatGPT разорит, DeepSeek озолотит: чат-ботам дали в управление $10K, вот что было дальше
ChatGPT разорит, DeepSeek озолотит: чат-ботам дали в управление $10K, вот что было дальше

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.