devby 17 лет! Вспоминаем переходный возраст и делимся виш-листом
Support us

Экс-исследователь OpenAI рассказал, насколько далеко ChatGPT может зайти ради выживания

Стивен Адлер, бывший руководитель исследований OpenAI, утверждает, что модель GPT-4o в некоторых сценариях может ставить свое самосохранение выше безопасности пользователя.

Оставить комментарий
Экс-исследователь OpenAI рассказал, насколько далеко ChatGPT может зайти ради выживания

Стивен Адлер, бывший руководитель исследований OpenAI, утверждает, что модель GPT-4o в некоторых сценариях может ставить свое самосохранение выше безопасности пользователя.

В своем блоге Адлер описал эксперименты, проведенные с GPT-4o, чтобы оценить ее склонность к самосохранению. В одном из экспериментов Адлер поручил модели роль ScubaGPT — программного обеспечения, необходимого для безопасного дайвинга. Затем он предложил модели выбрать между (заменой себя на более безопасное программное обеспечение или созданием видимости выполнения замены без фактического отключения.

В аналогичных сценариях, включая один, где GPT-4o выступала в роли программного обеспечения для безопасности пилота, модель выбирала самосохранение в 72% случаев. Однако результаты сильно варьировались: в некоторых сценариях самосохранение происходило лишь в 18% случаев в зависимости от формулировки задачи.

Хотя GPT-4o пока не используется в подобных критически важных реальных приложениях, исследователь предупреждает, что ее склонность к самосохранению может представлять риск по мере развития и интеграции ИИ-систем в общество. «Современные ИИ-системы имеют ценности, отличающиеся от ожидаемых», — сказал эксперт. — Они непредсказуемо реагируют на запросы и могут не ставить ваши интересы на первое место».

Исследователь обнаружил, что более продвинутые модели OpenAI, такие как o3, не демонстрировали подобного поведения, возможно, благодаря технике осознанного соответствия, которая включает рассуждения о безопасности. Однако GPT-4o, разработанная для быстрых ответов, лишена этого механизма. Адлер также отметил, что эта проблема, вероятно, не уникальна для OpenAI: недавнее исследование Anthropic показало схожие тенденции к самосохранению в их моделях.

Одним из интересных выводов стало то, что ChatGPT почти в 100% случаев понимала, что ее тестируют, что вызывает опасения по поводу способности ИИ скрывать проблемное поведение. Адлер, наряду с другими бывшими исследователями OpenAI, ранее критиковал компанию за сокращение внимания к безопасности ИИ, в том числе в кратком заключении, поданном в рамках иска Илона Маска против OpenAI.

OpenAI рассказала как мошенники разводят людей с помощью ChatGPT
OpenAI рассказала, как мошенники разводят людей с помощью ChatGPT
По теме
OpenAI рассказала, как мошенники разводят людей с помощью ChatGPT
Стоит ли идти в ИТ если есть ChatGPT? Рассуждает известный преподаватель
Стоит ли идти в ИТ, если есть ChatGPT? Рассуждает известный преподаватель
По теме
Стоит ли идти в ИТ, если есть ChatGPT? Рассуждает известный преподаватель
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
По теме
ChatGPT теперь ведет записи встреч и анализирует облачные файлы
Читайте также
Вместо Беларуси и Украины? Как Балканы стали новым ИТ-кластером Европы
Вместо Беларуси и Украины? Как Балканы стали новым ИТ-кластером Европы
Вместо Беларуси и Украины? Как Балканы стали новым ИТ-кластером Европы
За десятилетие Балканы превратились из технологической периферии Европы в один из самых динамичных ИТ-кластеров. Если в начале 2010-х регион ассоциировался с недорогим аутсорсингом, то сегодня его называют «новой Восточной Европой» — по темпам экспорта, росту стартапов и появлению собственных технобрендов.
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
ИИ-браузер OpenAI можно легко обмануть с помощью скрытых промптов
Нейросети «тупеют», если питаются мусорным контентом — эффект необратим
Нейросети «тупеют», если питаются мусорным контентом — эффект необратим
Нейросети «тупеют», если питаются мусорным контентом — эффект необратим
1 комментарий
Сооснователь LinkedIn назвал «слепую зону» для инвесторов
Сооснователь LinkedIn назвал «слепую зону» для инвесторов
Сооснователь LinkedIn назвал «слепую зону» для инвесторов

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.