Support us

Экс-исследователь OpenAI рассказал, насколько далеко ChatGPT может зайти ради выживания

Стивен Адлер, бывший руководитель исследований OpenAI, утверждает, что модель GPT-4o в некоторых сценариях может ставить свое самосохранение выше безопасности пользователя.

Оставить комментарий
Экс-исследователь OpenAI рассказал, насколько далеко ChatGPT может зайти ради выживания

Стивен Адлер, бывший руководитель исследований OpenAI, утверждает, что модель GPT-4o в некоторых сценариях может ставить свое самосохранение выше безопасности пользователя.

В своем блоге Адлер описал эксперименты, проведенные с GPT-4o, чтобы оценить ее склонность к самосохранению. В одном из экспериментов Адлер поручил модели роль ScubaGPT — программного обеспечения, необходимого для безопасного дайвинга. Затем он предложил модели выбрать между (заменой себя на более безопасное программное обеспечение или созданием видимости выполнения замены без фактического отключения.

В аналогичных сценариях, включая один, где GPT-4o выступала в роли программного обеспечения для безопасности пилота, модель выбирала самосохранение в 72% случаев. Однако результаты сильно варьировались: в некоторых сценариях самосохранение происходило лишь в 18% случаев в зависимости от формулировки задачи.

Хотя GPT-4o пока не используется в подобных критически важных реальных приложениях, исследователь предупреждает, что ее склонность к самосохранению может представлять риск по мере развития и интеграции ИИ-систем в общество. «Современные ИИ-системы имеют ценности, отличающиеся от ожидаемых», — сказал эксперт. — Они непредсказуемо реагируют на запросы и могут не ставить ваши интересы на первое место».

Исследователь обнаружил, что более продвинутые модели OpenAI, такие как o3, не демонстрировали подобного поведения, возможно, благодаря технике осознанного соответствия, которая включает рассуждения о безопасности. Однако GPT-4o, разработанная для быстрых ответов, лишена этого механизма. Адлер также отметил, что эта проблема, вероятно, не уникальна для OpenAI: недавнее исследование Anthropic показало схожие тенденции к самосохранению в их моделях.

Одним из интересных выводов стало то, что ChatGPT почти в 100% случаев понимала, что ее тестируют, что вызывает опасения по поводу способности ИИ скрывать проблемное поведение. Адлер, наряду с другими бывшими исследователями OpenAI, ранее критиковал компанию за сокращение внимания к безопасности ИИ, в том числе в кратком заключении, поданном в рамках иска Илона Маска против OpenAI.

OpenAI рассказала как мошенники разводят людей с помощью ChatGPT
OpenAI рассказала, как мошенники разводят людей с помощью ChatGPT
По теме
OpenAI рассказала, как мошенники разводят людей с помощью ChatGPT
Стоит ли идти в ИТ если есть ChatGPT? Рассуждает известный преподаватель
Стоит ли идти в ИТ, если есть ChatGPT? Рассуждает известный преподаватель
По теме
Стоит ли идти в ИТ, если есть ChatGPT? Рассуждает известный преподаватель
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
По теме
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
Читайте также
«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов
«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов
«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов
Худшая в Европе: Беларусь засветилась в мировом рейтинге ИИ
Худшая в Европе: Беларусь засветилась в мировом рейтинге ИИ
Худшая в Европе: Беларусь засветилась в мировом рейтинге ИИ
5 комментариев
OpenAI может забрать до 40% мировой памяти — рынок готовится к дефициту
OpenAI может забрать до 40% мировой памяти — рынок готовится к дефициту
OpenAI может забрать до 40% мировой памяти — рынок готовится к дефициту
1 комментарий
Техкомпании ради ИИ залезли в рекордные долги за всю историю отрасли
Техкомпании ради ИИ залезли в рекордные долги за всю историю отрасли
Техкомпании ради ИИ залезли в рекордные долги за всю историю отрасли
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.