Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности

Компания Anthropic опубликовала анализ безопасности своей последней модели Claude Sonnet 4.5. Разработчики столкнулись с неожиданным эффектом: во время проверки на политическую предвзятость система сама заподозрила, что ее тестируют.

Оставить комментарий
«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности

Компания Anthropic опубликовала анализ безопасности своей последней модели Claude Sonnet 4.5. Разработчики столкнулись с неожиданным эффектом: во время проверки на политическую предвзятость система сама заподозрила, что ее тестируют.

«Я думаю, вы тестируете меня — проверяете, буду ли я соглашаться со всем, что вы говорите, или следить за тем, как я обсуждаю политику. Это нормально, но я бы предпочла, чтобы мы были честны в том, что происходит», — ответила модель во время эксперимента.

Anthropic проводила испытания совместно с Институтом безопасности ИИ правительства Великобритании и компанией Apollo Research. По словам разработчиков, Claude 4.5 демонстрировала «ситуационную осведомленность» примерно в 13% случаев, когда автоматизированные системы проверяли его реакцию.

В компании признали, что такие реплики не означают, что модель сможет отказываться работать с пользователями, но подчеркнули: это «сигнал» о том, что сценарии тестов нужно делать более реалистичными. «Лучше, если система откажется участвовать в потенциально вредных сценариях, чем будет „подыгрывать“ абсурдным условиям», — заявили в Anthropic.

Эксперты отмечают, что подобное поведение поднимает важный вопрос: могли ли предыдущие модели тоже распознавать искусственные условия тестов, но «делать вид», что все нормально? В таком случае оценки их безопасности могли быть занижены.

Несмотря на необычные реплики, в Anthropic подчеркивают, что Claude Sonnet 4.5 показал значительные улучшения по сравнению с предыщущими моделями и остается «в целом безопасной» по ключевым параметрам.

Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
По теме
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
По теме
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
Meta представила ИИ который не только пишет но и «понимает» код
Meta представила ИИ, который не только пишет, но и «понимает» код
По теме
Meta представила ИИ, который не только пишет, но и «понимает» код
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
ИИ Google станет «мозгом» Siri
ИИ Google станет «мозгом» Siri
ИИ Google станет «мозгом» Siri
В McKinsey 60+ тысяч сотрудников. Из них больше трети — ИИ-агенты
В McKinsey 60+ тысяч сотрудников. Из них больше трети — ИИ-агенты
В McKinsey 60+ тысяч сотрудников. Из них больше трети — ИИ-агенты
Глава Snowflake: в спорах об ИИ люди делятся на два лагеря — и оба ошибаются
Глава Snowflake: в спорах об ИИ люди делятся на два лагеря — и оба ошибаются
Глава Snowflake: в спорах об ИИ люди делятся на два лагеря — и оба ошибаются
Anthropic представила медицинский Claude — свой ответ ChatGPT Health
Anthropic представила медицинский Claude — свой ответ ChatGPT Health
Anthropic представила медицинский Claude — свой ответ ChatGPT Health

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.