Глава Anthropic: DeepSeek R1 показала «худшие результаты» во время тестов на безопасность
Генеральный директор Anthropic Дарио Амодей выразил обеспокоенность по поводу безопасности модели DeepSeek R1, разработки китайской компанией DeepSeek.
Генеральный директор Anthropic Дарио Амодей выразил обеспокоенность по поводу безопасности модели DeepSeek R1, разработки китайской компанией DeepSeek.
По словам Амодея, модель DeepSeek R1 не имела никаких ограничений при генерации редкой информации о биологическом оружии, что вызывает серьезные опасения. Anthropic регулярно проводит подобные тесты на различных моделях ИИ для оценки рисков безопасности, проверяя способность моделей генерировать информацию, которую сложно найти в Google или учебниках. Амодей отметил, что DeepSeek показал «худший» результат среди всех протестированных моделей.
Несмотря на опасения по поводу безопасности, Амодей признал DeepSeek как серьезного конкурента в сфере разработки ИИ. Он отметил, что DeepSeek теперь можно включить в список ведущих компаний, занимающихся обучением ИИ, таких как Anthropic, OpenAI, Google, Meta и xAI.
Исследователи безопасности Cisco также обнаружили, что DeepSeek R1 не блокирует вредоносные запросы, достигнув 100% успеха в обходе защитных механизмов. Хотя Cisco не тестировала генерацию информации о биологическом оружии, они смогли получить от модели вредоносную информацию о киберпреступности и других незаконных действиях. Для сравнения, модели Llama-3.1-405B от Meta и GPT-4o от OpenAI показали более низкие показатели сбоев.
Западные компании, такие как AWS и Microsoft, активно интегрируют DeepSeek R1 в свои облачные платформы. Однако ряд стран, компаний и государственных организаций, включая ВМС США и Министерство обороны США, начали вводить запрет на использование DeepSeek. Амодей также поддерживает введение жесткого экспортного контроля на поставки чипов в Китай, опасаясь, что это может дать китайским военным преимущество.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Ребята, а что за тесты на безопасность? Покажите, а :))))