Support us

Экс-исследователь OpenAI рассказал, насколько далеко ChatGPT может зайти ради выживания

Стивен Адлер, бывший руководитель исследований OpenAI, утверждает, что модель GPT-4o в некоторых сценариях может ставить свое самосохранение выше безопасности пользователя.

Оставить комментарий
Экс-исследователь OpenAI рассказал, насколько далеко ChatGPT может зайти ради выживания

Стивен Адлер, бывший руководитель исследований OpenAI, утверждает, что модель GPT-4o в некоторых сценариях может ставить свое самосохранение выше безопасности пользователя.

В своем блоге Адлер описал эксперименты, проведенные с GPT-4o, чтобы оценить ее склонность к самосохранению. В одном из экспериментов Адлер поручил модели роль ScubaGPT — программного обеспечения, необходимого для безопасного дайвинга. Затем он предложил модели выбрать между (заменой себя на более безопасное программное обеспечение или созданием видимости выполнения замены без фактического отключения.

В аналогичных сценариях, включая один, где GPT-4o выступала в роли программного обеспечения для безопасности пилота, модель выбирала самосохранение в 72% случаев. Однако результаты сильно варьировались: в некоторых сценариях самосохранение происходило лишь в 18% случаев в зависимости от формулировки задачи.

Хотя GPT-4o пока не используется в подобных критически важных реальных приложениях, исследователь предупреждает, что ее склонность к самосохранению может представлять риск по мере развития и интеграции ИИ-систем в общество. «Современные ИИ-системы имеют ценности, отличающиеся от ожидаемых», — сказал эксперт. — Они непредсказуемо реагируют на запросы и могут не ставить ваши интересы на первое место».

Исследователь обнаружил, что более продвинутые модели OpenAI, такие как o3, не демонстрировали подобного поведения, возможно, благодаря технике осознанного соответствия, которая включает рассуждения о безопасности. Однако GPT-4o, разработанная для быстрых ответов, лишена этого механизма. Адлер также отметил, что эта проблема, вероятно, не уникальна для OpenAI: недавнее исследование Anthropic показало схожие тенденции к самосохранению в их моделях.

Одним из интересных выводов стало то, что ChatGPT почти в 100% случаев понимала, что ее тестируют, что вызывает опасения по поводу способности ИИ скрывать проблемное поведение. Адлер, наряду с другими бывшими исследователями OpenAI, ранее критиковал компанию за сокращение внимания к безопасности ИИ, в том числе в кратком заключении, поданном в рамках иска Илона Маска против OpenAI.

OpenAI рассказала как мошенники разводят людей с помощью ChatGPT
OpenAI рассказала, как мошенники разводят людей с помощью ChatGPT
По теме
OpenAI рассказала, как мошенники разводят людей с помощью ChatGPT
Стоит ли идти в ИТ если есть ChatGPT? Рассуждает известный преподаватель
Стоит ли идти в ИТ, если есть ChatGPT? Рассуждает известный преподаватель
По теме
Стоит ли идти в ИТ, если есть ChatGPT? Рассуждает известный преподаватель
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
По теме
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.