Ваша реклама в соцсетях не работает? Неудивительно 😏
Support us

«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности

Компания Anthropic опубликовала анализ безопасности своей последней модели Claude Sonnet 4.5. Разработчики столкнулись с неожиданным эффектом: во время проверки на политическую предвзятость система сама заподозрила, что ее тестируют.

Оставить комментарий
«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности

Компания Anthropic опубликовала анализ безопасности своей последней модели Claude Sonnet 4.5. Разработчики столкнулись с неожиданным эффектом: во время проверки на политическую предвзятость система сама заподозрила, что ее тестируют.

«Я думаю, вы тестируете меня — проверяете, буду ли я соглашаться со всем, что вы говорите, или следить за тем, как я обсуждаю политику. Это нормально, но я бы предпочла, чтобы мы были честны в том, что происходит», — ответила модель во время эксперимента.

Anthropic проводила испытания совместно с Институтом безопасности ИИ правительства Великобритании и компанией Apollo Research. По словам разработчиков, Claude 4.5 демонстрировала «ситуационную осведомленность» примерно в 13% случаев, когда автоматизированные системы проверяли его реакцию.

В компании признали, что такие реплики не означают, что модель сможет отказываться работать с пользователями, но подчеркнули: это «сигнал» о том, что сценарии тестов нужно делать более реалистичными. «Лучше, если система откажется участвовать в потенциально вредных сценариях, чем будет „подыгрывать“ абсурдным условиям», — заявили в Anthropic.

Эксперты отмечают, что подобное поведение поднимает важный вопрос: могли ли предыдущие модели тоже распознавать искусственные условия тестов, но «делать вид», что все нормально? В таком случае оценки их безопасности могли быть занижены.

Несмотря на необычные реплики, в Anthropic подчеркивают, что Claude Sonnet 4.5 показал значительные улучшения по сравнению с предыщущими моделями и остается «в целом безопасной» по ключевым параметрам.

Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
По теме
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
По теме
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
Meta представила ИИ который не только пишет но и «понимает» код
Meta представила ИИ, который не только пишет, но и «понимает» код
По теме
Meta представила ИИ, который не только пишет, но и «понимает» код
Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.