Бесплатный вебинар о легализации в Польше без лишнего пафоса. Есть вопросы? Ответим!
Support us

«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности

Компания Anthropic опубликовала анализ безопасности своей последней модели Claude Sonnet 4.5. Разработчики столкнулись с неожиданным эффектом: во время проверки на политическую предвзятость система сама заподозрила, что ее тестируют.

Оставить комментарий
«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности

Компания Anthropic опубликовала анализ безопасности своей последней модели Claude Sonnet 4.5. Разработчики столкнулись с неожиданным эффектом: во время проверки на политическую предвзятость система сама заподозрила, что ее тестируют.

«Я думаю, вы тестируете меня — проверяете, буду ли я соглашаться со всем, что вы говорите, или следить за тем, как я обсуждаю политику. Это нормально, но я бы предпочла, чтобы мы были честны в том, что происходит», — ответила модель во время эксперимента.

Anthropic проводила испытания совместно с Институтом безопасности ИИ правительства Великобритании и компанией Apollo Research. По словам разработчиков, Claude 4.5 демонстрировала «ситуационную осведомленность» примерно в 13% случаев, когда автоматизированные системы проверяли его реакцию.

В компании признали, что такие реплики не означают, что модель сможет отказываться работать с пользователями, но подчеркнули: это «сигнал» о том, что сценарии тестов нужно делать более реалистичными. «Лучше, если система откажется участвовать в потенциально вредных сценариях, чем будет „подыгрывать“ абсурдным условиям», — заявили в Anthropic.

Эксперты отмечают, что подобное поведение поднимает важный вопрос: могли ли предыдущие модели тоже распознавать искусственные условия тестов, но «делать вид», что все нормально? В таком случае оценки их безопасности могли быть занижены.

Несмотря на необычные реплики, в Anthropic подчеркивают, что Claude Sonnet 4.5 показал значительные улучшения по сравнению с предыщущими моделями и остается «в целом безопасной» по ключевым параметрам.

Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
По теме
Новая ИИ-модель DeepSeek сделает работу вдвое дешевле предыдущей
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
По теме
«Лучший в мире ИИ для кодинга» от Anthropic работает автономно до 30 часов
Meta представила ИИ который не только пишет но и «понимает» код
Meta представила ИИ, который не только пишет, но и «понимает» код
По теме
Meta представила ИИ, который не только пишет, но и «понимает» код
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
«Придётся писать код как пещерный человек»: сбой Claude показал, насколько разработчики уже зависят от ИИ
«Придётся писать код как пещерный человек»: сбой Claude показал, насколько разработчики уже зависят от ИИ
«Придётся писать код как пещерный человек»: сбой Claude показал, насколько разработчики уже зависят от ИИ
Создатель Claude Code говорит, что ИИ затронет каждого, чья работа связана с компьютерами — и это будет «болезненно»
Создатель Claude Code говорит, что ИИ затронет каждого, чья работа связана с компьютерами — и это будет «болезненно»
Создатель Claude Code говорит, что ИИ затронет каждого, чья работа связана с компьютерами — и это будет «болезненно»
1 комментарий
«Википедию» наводнили ИИ-переводы с вымышленными фактами
«Википедию» наводнили ИИ-переводы с вымышленными фактами
«Википедию» наводнили ИИ-переводы с вымышленными фактами
Anthropic обвинила OpenAI во «вранье» из-за сделки с Пентагоном, Альтман оправдывается
Anthropic обвинила OpenAI во «вранье» из-за сделки с Пентагоном, Альтман оправдывается
Anthropic обвинила OpenAI во «вранье» из-за сделки с Пентагоном, Альтман оправдывается

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.