devby 17 лет! Вспоминаем переходный возраст и делимся виш-листом
Support us

«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности

Компания Anthropic опубликовала анализ безопасности своей последней модели Claude Sonnet 4.5. Разработчики столкнулись с неожиданным эффектом: во время проверки на политическую предвзятость система сама заподозрила, что ее тестируют.

Оставить комментарий
«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности

Компания Anthropic опубликовала анализ безопасности своей последней модели Claude Sonnet 4.5. Разработчики столкнулись с неожиданным эффектом: во время проверки на политическую предвзятость система сама заподозрила, что ее тестируют.

«Я думаю, вы тестируете меня — проверяете, буду ли я соглашаться со всем, что вы говорите, или следить за тем, как я обсуждаю политику. Это нормально, но я бы предпочла, чтобы мы были честны в том, что происходит», — ответила модель во время эксперимента.

Anthropic проводила испытания совместно с Институтом безопасности ИИ правительства Великобритании и компанией Apollo Research. По словам разработчиков, Claude 4.5 демонстрировала «ситуационную осведомленность» примерно в 13% случаев, когда автоматизированные системы проверяли его реакцию.

В компании признали, что такие реплики не означают, что модель сможет отказываться работать с пользователями, но подчеркнули: это «сигнал» о том, что сценарии тестов нужно делать более реалистичными. «Лучше, если система откажется участвовать в потенциально вредных сценариях, чем будет „подыгрывать“ абсурдным условиям», — заявили в Anthropic.

Эксперты отмечают, что подобное поведение поднимает важный вопрос: могли ли предыдущие модели тоже распознавать искусственные условия тестов, но «делать вид», что все нормально? В таком случае оценки их безопасности могли быть занижены.

Несмотря на необычные реплики, в Anthropic подчеркивают, что Claude Sonnet 4.5 показал значительные улучшения по сравнению с предыщущими моделями и остается «в целом безопасной» по ключевым параметрам.

Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
По теме
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
По теме
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
Meta представила ИИ который не только пишет но и «понимает» код
Meta представила ИИ, который не только пишет, но и «понимает» код
По теме
Meta представила ИИ, который не только пишет, но и «понимает» код
Читайте также
Вместо Беларуси и Украины? Как Балканы стали новым ИТ-кластером Европы
Вместо Беларуси и Украины? Как Балканы стали новым ИТ-кластером Европы
Вместо Беларуси и Украины? Как Балканы стали новым ИТ-кластером Европы
За десятилетие Балканы превратились из технологической периферии Европы в один из самых динамичных ИТ-кластеров. Если в начале 2010-х регион ассоциировался с недорогим аутсорсингом, то сегодня его называют «новой Восточной Европой» — по темпам экспорта, росту стартапов и появлению собственных технобрендов.
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
Нейросети «тупеют», если питаются мусорным контентом — эффект необратим
Нейросети «тупеют», если питаются мусорным контентом — эффект необратим
Нейросети «тупеют», если питаются мусорным контентом — эффект необратим
1 комментарий
Сооснователь LinkedIn назвал «слепую зону» для инвесторов
Сооснователь LinkedIn назвал «слепую зону» для инвесторов
Сооснователь LinkedIn назвал «слепую зону» для инвесторов

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.