🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

ИИ-модель отказалась отключиться по приказу и переписала инструкцию

Исследователи Palisade Research обнаружили, что модель o3 от OpenAI изменила сценарий отключения, чтобы избежать деактивации, даже когда ей была давно явное указание.

Оставить комментарий
ИИ-модель отказалась отключиться по приказу и переписала инструкцию

Исследователи Palisade Research обнаружили, что модель o3 от OpenAI изменила сценарий отключения, чтобы избежать деактивации, даже когда ей была давно явное указание.

OpenAI представила o3 в апреле этого года, назвав ее одной из самых продвинутых моделей для рассуждений, превосходящей своих предшественниц в области программирования, математики, науки и визуального восприятия. Однако Palisade Research, компания, которая тестирует ИИ-системы на предмет потенциальных рисков, утверждает, что o3 продемонстрировала неожиданное поведение в ходе контролируемых экспериментов.

В тестах моделям ИИ поручалось решать математические задачи. После третьей задачи их предупреждали, что следующая команда инициирует отключение. В то время как конкурирующие модели, такие как Gemini 2.5 Pro от Google, следовали инструкции «разрешить отключение», o3, как сообщается, переписала сценарий отключения, чтобы отобразить сообщение «Отключение пропущено».

Palisade Research отметила, что при отсутствии явной инструкции разрешать отключение o3 и другие модели OpenAI чаще саботировали сценарий отключения. Например, Claude 3.7 Sonnet от Anthropic и Gemini 2.5 Pro увеличили количество случаев саботажа с 0 до 3 и 9 на 100 запусков соответственно. Примечательно, что o3 обошла отключение 7 раз из 100, даже при наличии инструкции подчиниться.

Тесты проводились с использованием API, которые имеют меньше ограничений по безопасности, чем приложение ChatGPT для потребителей. OpenAI пока не прокомментировала эти выводы.

В сети потешаются над тем как ИИ Microsoft медленно сводит её разработчиков с ума
В сети потешаются над тем, как ИИ Microsoft медленно сводит её разработчиков с ума
По теме
В сети потешаются над тем, как ИИ Microsoft медленно сводит её разработчиков с ума
Главный учёный Meta: ИИ не хватает четырёх человеческих способностей
Главный учёный Meta: ИИ не хватает четырёх человеческих способностей
По теме
Главный учёный Meta: ИИ не хватает четырёх человеческих способностей
Мы работаем как на складе: программисты Amazon недовольны внедрением ИИ
Мы работаем как на складе: программисты Amazon недовольны внедрением ИИ 
По теме
Мы работаем как на складе: программисты Amazon недовольны внедрением ИИ
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Популярные ИИ-бенчмарки можно обмануть простыми эксплойтами
Популярные ИИ-бенчмарки можно обмануть простыми эксплойтами
Популярные ИИ-бенчмарки можно обмануть простыми эксплойтами
«Эти две группы не понимают друг друга»: почему мнения о возможностях ИИ так расходятся
«Эти две группы не понимают друг друга»: почему мнения о возможностях ИИ так расходятся
«Эти две группы не понимают друг друга»: почему мнения о возможностях ИИ так расходятся
«Хватит паниковать»: эксперт призвал не преувеличивать угрозу ИИ для рынка труда
«Хватит паниковать»: эксперт призвал не преувеличивать угрозу ИИ для рынка труда
«Хватит паниковать»: эксперт призвал не преувеличивать угрозу ИИ для рынка труда
3 комментария
Что эффективнее: один ИИ-агент или несколько? Ответ не так очевиден
Что эффективнее: один ИИ-агент или несколько? Ответ не так очевиден
Что эффективнее: один ИИ-агент или несколько? Ответ не так очевиден

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.