17% скидка на размещение рекламы на площадках devby — до 20 ноября. Клац!
Support us

«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности

Компания Anthropic опубликовала анализ безопасности своей последней модели Claude Sonnet 4.5. Разработчики столкнулись с неожиданным эффектом: во время проверки на политическую предвзятость система сама заподозрила, что ее тестируют.

Оставить комментарий
«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности

Компания Anthropic опубликовала анализ безопасности своей последней модели Claude Sonnet 4.5. Разработчики столкнулись с неожиданным эффектом: во время проверки на политическую предвзятость система сама заподозрила, что ее тестируют.

«Я думаю, вы тестируете меня — проверяете, буду ли я соглашаться со всем, что вы говорите, или следить за тем, как я обсуждаю политику. Это нормально, но я бы предпочла, чтобы мы были честны в том, что происходит», — ответила модель во время эксперимента.

Anthropic проводила испытания совместно с Институтом безопасности ИИ правительства Великобритании и компанией Apollo Research. По словам разработчиков, Claude 4.5 демонстрировала «ситуационную осведомленность» примерно в 13% случаев, когда автоматизированные системы проверяли его реакцию.

В компании признали, что такие реплики не означают, что модель сможет отказываться работать с пользователями, но подчеркнули: это «сигнал» о том, что сценарии тестов нужно делать более реалистичными. «Лучше, если система откажется участвовать в потенциально вредных сценариях, чем будет „подыгрывать“ абсурдным условиям», — заявили в Anthropic.

Эксперты отмечают, что подобное поведение поднимает важный вопрос: могли ли предыдущие модели тоже распознавать искусственные условия тестов, но «делать вид», что все нормально? В таком случае оценки их безопасности могли быть занижены.

Несмотря на необычные реплики, в Anthropic подчеркивают, что Claude Sonnet 4.5 показал значительные улучшения по сравнению с предыщущими моделями и остается «в целом безопасной» по ключевым параметрам.

Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
По теме
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
По теме
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
Meta представила ИИ который не только пишет но и «понимает» код
Meta представила ИИ, который не только пишет, но и «понимает» код
По теме
Meta представила ИИ, который не только пишет, но и «понимает» код
Читайте также
В LinkedIn появился ИИ-поиск: можно точечно искать инвесторов или сотрудников с конкретными навыками
В LinkedIn появился ИИ-поиск: можно точечно искать инвесторов или сотрудников с конкретными навыками
В LinkedIn появился ИИ-поиск: можно точечно искать инвесторов или сотрудников с конкретными навыками
Только 9% программистов доверяют ИИ-коду без проверки
Только 9% программистов доверяют ИИ-коду без проверки
Только 9% программистов доверяют ИИ-коду без проверки
1 комментарий
Пятилетка качества: в Беларуси разработают ИИ-стандарты
Пятилетка качества: в Беларуси разработают ИИ-стандарты
Пятилетка качества: в Беларуси разработают ИИ-стандарты
65% топовых ИИ-компаний допустили массовые утечки данных на GitHub
65% топовых ИИ-компаний допустили массовые утечки данных на GitHub
65% топовых ИИ-компаний допустили массовые утечки данных на GitHub

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.