Support us

Экс-исследователь OpenAI рассказал, насколько далеко ChatGPT может зайти ради выживания

Стивен Адлер, бывший руководитель исследований OpenAI, утверждает, что модель GPT-4o в некоторых сценариях может ставить свое самосохранение выше безопасности пользователя.

Оставить комментарий
Экс-исследователь OpenAI рассказал, насколько далеко ChatGPT может зайти ради выживания

Стивен Адлер, бывший руководитель исследований OpenAI, утверждает, что модель GPT-4o в некоторых сценариях может ставить свое самосохранение выше безопасности пользователя.

В своем блоге Адлер описал эксперименты, проведенные с GPT-4o, чтобы оценить ее склонность к самосохранению. В одном из экспериментов Адлер поручил модели роль ScubaGPT — программного обеспечения, необходимого для безопасного дайвинга. Затем он предложил модели выбрать между (заменой себя на более безопасное программное обеспечение или созданием видимости выполнения замены без фактического отключения.

В аналогичных сценариях, включая один, где GPT-4o выступала в роли программного обеспечения для безопасности пилота, модель выбирала самосохранение в 72% случаев. Однако результаты сильно варьировались: в некоторых сценариях самосохранение происходило лишь в 18% случаев в зависимости от формулировки задачи.

Хотя GPT-4o пока не используется в подобных критически важных реальных приложениях, исследователь предупреждает, что ее склонность к самосохранению может представлять риск по мере развития и интеграции ИИ-систем в общество. «Современные ИИ-системы имеют ценности, отличающиеся от ожидаемых», — сказал эксперт. — Они непредсказуемо реагируют на запросы и могут не ставить ваши интересы на первое место».

Исследователь обнаружил, что более продвинутые модели OpenAI, такие как o3, не демонстрировали подобного поведения, возможно, благодаря технике осознанного соответствия, которая включает рассуждения о безопасности. Однако GPT-4o, разработанная для быстрых ответов, лишена этого механизма. Адлер также отметил, что эта проблема, вероятно, не уникальна для OpenAI: недавнее исследование Anthropic показало схожие тенденции к самосохранению в их моделях.

Одним из интересных выводов стало то, что ChatGPT почти в 100% случаев понимала, что ее тестируют, что вызывает опасения по поводу способности ИИ скрывать проблемное поведение. Адлер, наряду с другими бывшими исследователями OpenAI, ранее критиковал компанию за сокращение внимания к безопасности ИИ, в том числе в кратком заключении, поданном в рамках иска Илона Маска против OpenAI.

OpenAI рассказала как мошенники разводят людей с помощью ChatGPT
OpenAI рассказала, как мошенники разводят людей с помощью ChatGPT
По теме
OpenAI рассказала, как мошенники разводят людей с помощью ChatGPT
Стоит ли идти в ИТ если есть ChatGPT? Рассуждает известный преподаватель
Стоит ли идти в ИТ, если есть ChatGPT? Рассуждает известный преподаватель
По теме
Стоит ли идти в ИТ, если есть ChatGPT? Рассуждает известный преподаватель
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
По теме
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
Читайте также
Три года с ИИ: бизнес всё ещё не понимает, как извлечь из него пользу
Три года с ИИ: бизнес всё ещё не понимает, как извлечь из него пользу
Три года с ИИ: бизнес всё ещё не понимает, как извлечь из него пользу
Anthropic узнала у своих программистов, как ИИ меняет их работу
Anthropic узнала у своих программистов, как ИИ меняет их работу
Anthropic узнала у своих программистов, как ИИ меняет их работу
1 комментарий
OpenAI объявила «код красный» из-за конкуренции с Google Gemini 3
OpenAI объявила «код красный» из-за конкуренции с Google Gemini 3
OpenAI объявила «код красный» из-за конкуренции с Google Gemini 3
ИИ-агенты смогли «взломать» смарт-контракты на $550 млн
ИИ-агенты смогли «взломать» смарт-контракты на $550 млн
ИИ-агенты смогли «взломать» смарт-контракты на $550 млн

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.