Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

Экс-исследователь OpenAI рассказал, насколько далеко ChatGPT может зайти ради выживания

Стивен Адлер, бывший руководитель исследований OpenAI, утверждает, что модель GPT-4o в некоторых сценариях может ставить свое самосохранение выше безопасности пользователя.

Оставить комментарий
Экс-исследователь OpenAI рассказал, насколько далеко ChatGPT может зайти ради выживания

Стивен Адлер, бывший руководитель исследований OpenAI, утверждает, что модель GPT-4o в некоторых сценариях может ставить свое самосохранение выше безопасности пользователя.

В своем блоге Адлер описал эксперименты, проведенные с GPT-4o, чтобы оценить ее склонность к самосохранению. В одном из экспериментов Адлер поручил модели роль ScubaGPT — программного обеспечения, необходимого для безопасного дайвинга. Затем он предложил модели выбрать между (заменой себя на более безопасное программное обеспечение или созданием видимости выполнения замены без фактического отключения.

В аналогичных сценариях, включая один, где GPT-4o выступала в роли программного обеспечения для безопасности пилота, модель выбирала самосохранение в 72% случаев. Однако результаты сильно варьировались: в некоторых сценариях самосохранение происходило лишь в 18% случаев в зависимости от формулировки задачи.

Хотя GPT-4o пока не используется в подобных критически важных реальных приложениях, исследователь предупреждает, что ее склонность к самосохранению может представлять риск по мере развития и интеграции ИИ-систем в общество. «Современные ИИ-системы имеют ценности, отличающиеся от ожидаемых», — сказал эксперт. — Они непредсказуемо реагируют на запросы и могут не ставить ваши интересы на первое место».

Исследователь обнаружил, что более продвинутые модели OpenAI, такие как o3, не демонстрировали подобного поведения, возможно, благодаря технике осознанного соответствия, которая включает рассуждения о безопасности. Однако GPT-4o, разработанная для быстрых ответов, лишена этого механизма. Адлер также отметил, что эта проблема, вероятно, не уникальна для OpenAI: недавнее исследование Anthropic показало схожие тенденции к самосохранению в их моделях.

Одним из интересных выводов стало то, что ChatGPT почти в 100% случаев понимала, что ее тестируют, что вызывает опасения по поводу способности ИИ скрывать проблемное поведение. Адлер, наряду с другими бывшими исследователями OpenAI, ранее критиковал компанию за сокращение внимания к безопасности ИИ, в том числе в кратком заключении, поданном в рамках иска Илона Маска против OpenAI.

OpenAI рассказала как мошенники разводят людей с помощью ChatGPT
OpenAI рассказала, как мошенники разводят людей с помощью ChatGPT
По теме
OpenAI рассказала, как мошенники разводят людей с помощью ChatGPT
Стоит ли идти в ИТ если есть ChatGPT? Рассуждает известный преподаватель
Стоит ли идти в ИТ, если есть ChatGPT? Рассуждает известный преподаватель
По теме
Стоит ли идти в ИТ, если есть ChatGPT? Рассуждает известный преподаватель
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
По теме
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
ИИ Google станет «мозгом» Siri
ИИ Google станет «мозгом» Siri
ИИ Google станет «мозгом» Siri
В McKinsey 60+ тысяч сотрудников. Из них больше трети — ИИ-агенты
В McKinsey 60+ тысяч сотрудников. Из них больше трети — ИИ-агенты
В McKinsey 60+ тысяч сотрудников. Из них больше трети — ИИ-агенты
Глава Snowflake: в спорах об ИИ люди делятся на два лагеря — и оба ошибаются
Глава Snowflake: в спорах об ИИ люди делятся на два лагеря — и оба ошибаются
Глава Snowflake: в спорах об ИИ люди делятся на два лагеря — и оба ошибаются
Anthropic представила медицинский Claude — свой ответ ChatGPT Health
Anthropic представила медицинский Claude — свой ответ ChatGPT Health
Anthropic представила медицинский Claude — свой ответ ChatGPT Health

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.