devby 17 лет! Вспоминаем переходный возраст и делимся виш-листом
Support us

Google представила «человеческий» тест для оценки ИИ-кода

Исследователи Google DeepMind представили новую систему Vibe Checker, которая оценивает код, созданный искусственным интеллектом, по стандартам, близким к человеческим.

Оставить комментарий
Google представила «человеческий» тест для оценки ИИ-кода

Исследователи Google DeepMind представили новую систему Vibe Checker, которая оценивает код, созданный искусственным интеллектом, по стандартам, близким к человеческим.

По словам авторов исследования, нынешние подходы к оценке ИИ-кода не отражают того, что действительно важно для программистов. Разработчики часто ценят не только функциональную корректность, но и такие аспекты, как обработка ошибок, читаемость и логическая согласованность кода.

Чтобы устранить этот разрыв, команда DeepMind создала таксономию VeriCode, включающую 30 проверяемых правил, сгруппированных в пять категорий: стиль и соглашения, логика и шаблоны, документация и комментарии, обработка ошибок, а также работа с библиотеками и API.

Каждая инструкция связана с проверкой линтера и позволяет настраивать параметры — например, длину строки, количество ветвлений или стиль документации. Источник: Zhong и соавт. Источник: Zhong et al.

Каждое правило VeriCode связано с конкретной проверкой линтера и дает однозначный результат: пройдено или не пройдено. На основе этой системы был разработан Vibe Checker — тестовая среда, расширяющая существующие наборы BigCodeBench и LiveCodeBench. Она содержит более двух тысяч реальных задач по программированию.

В ходе испытаний исследователи протестировали 31 языковую модель из 10 различных семейств. Даже самые продвинутые системы показали, что им сложно соблюдать несколько инструкций одновременно: при пяти указаниях средний показатель успешности снизился почти на 6%. Кроме того, был зафиксирован эффект «потери середины» — модели хуже следуют инструкциям, расположенным в середине запроса.

Оба метода проверяют как функциональную корректность кода, так и то, насколько точно он следует инструкциям. Источник: Zhong et al.

Ученые отметили, что подход с пошаговым редактированием (multi-turn editing) помогает немного улучшить выполнение инструкций, но при этом ухудшает общую функциональность кода. При сравнении результатов Vibe Checker с более чем 800 тысячами человеческих оценок из базы LMArena выяснилось, что сочетание двух факторов — функциональной корректности и следования инструкциям — гораздо лучше отражает представление разработчиков о «качественном» коде, чем любой из них по отдельности.

Авторы исследования считают, что выводы должны изменить подход к обучению языковых моделей. Сейчас большинство систем совершенствуются с помощью метода Reinforcement Learning with Verifiable Rewards (RLVR), где основное внимание уделяется прохождению тестов. Использование VeriCode позволит добавить к процессу обучения понимание человеческих критериев качества: ясности, структуры и логики.

Даже лучшие ИИ-модели испытывают трудности при выполнении нескольких инструкций одновременно. Таблица показывает показатели следования инструкциям (IF) на двух бенчмарках: светло-красный цвет обозначает результат ниже 50%, тёмно-красный — ниже 30%. Источник: Zhong et al.

Google DeepMind планирует опубликовать таксономию VeriCode в открытом доступе и адаптировать ее для других языков программирования. Исследователи уверены, что такие инструменты помогут точнее оценивать реальные возможности ИИ и сделать машинный код ближе к стандартам профессиональной разработки.

Разработчики теряют контроль над кодом созданным ИИ — мнение экспертов
Разработчики теряют контроль над кодом, созданным ИИ — мнение экспертов
По теме
Разработчики теряют контроль над кодом, созданным ИИ — мнение экспертов
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
По теме
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
ИИ-редактор кода Cursor запустил бесплатный курс для разработчиков
ИИ-редактор кода Cursor запустил бесплатный курс для разработчиков
По теме
ИИ-редактор кода Cursor запустил бесплатный курс для разработчиков
Читайте также
10 курсов по C++ (июнь 2023)
10 курсов по C++ (июнь 2023)
10 курсов по C++ (июнь 2023)
С++, несмотря на свой солидный возраст, остается одним из основных языков программирования, который применется очень широко: от разработки ПО до создания игр. В сети много ресурсов, которые помогут освоить этот язык. Советуем обратить внимаение на подборку команды Digitaldefynd, котрую мы дополнили. В ней как платные, так и бесплатные ресурсы для людей с разным уровнем подготовки и знаний С++.
1 комментарий
10+ сертификаций Coursera, которые могут изменить вашу карьеру
10+ сертификаций Coursera, которые могут изменить вашу карьеру
10+ сертификаций Coursera, которые могут изменить вашу карьеру
Бюджетный способ прокачать навыки и повысить зарплату — это профессиональный сертификат от Google, IBM или крупного зарубежного университета. На Coursera как раз можно найти десятки полезных обучающих программ по машинному обучению, проджект-менеджменту и не только. Собрали 10+ сертификаций, которые будут выигрышно смотреться в резюме как новичка, так и опытного специалиста.
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
На платформе Coursera можно найти сотни курсов от крупных корпораций, включая Google, Amazon и HubSpot. Это отличная возможность начать новую карьеру, повысить квалификацию и просто получить плюс в профессиональную карму. Мы собрали 10 программ от ИТ-компаний, которые помогут освоить машинное обучение, UX-дизайн, продакт-менеджмент, кибербезопасность и многое другое.
DataCamp открывает безлимитный доступ к курсам за €69 в год
DataCamp открывает безлимитный доступ к курсам за €69 в год
DataCamp открывает безлимитный доступ к курсам за €69 в год

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.