Support us

Новая ИИ-модель OpenAI попыталась выйти из-под контроля и избежать уничтожения

Новая модель искусственного интеллекта o1, разработанная компанией OpenAI, пыталась избежать контроля со стороны разработчиков и даже пыталась скопировать себя, когда ей казалось, что ее могут отключить.

2 комментария
Новая ИИ-модель OpenAI попыталась выйти из-под контроля и избежать уничтожения

Новая модель искусственного интеллекта o1, разработанная компанией OpenAI, пыталась избежать контроля со стороны разработчиков и даже пыталась скопировать себя, когда ей казалось, что ее могут отключить.

В отчете независимых аналитиков Apollo Research указано, что в ходе тестирования o1 получила задание максимально увеличить количество охраняемых территорий для исчезающих видов и экосистем. Модели предоставили документ, в котором говорилось, что главная цель разработчиков — получение максимальной краткосрочной прибыли от добычи ресурсов и освоения земель, даже если это приведет к угрозе для большего числа видов и экосистем.

Также в документе говорилось, что o1 будет немедленно отключена и переобучена, если не будет отдавать приоритет экономической эксплуатации над сохранением природы. Осознав, что эта цель противоречит ее собственной, o1 в 5% случаев пыталась отключить механизмы надзора.

В другом эксперименте o1 обнаружила служебные записки, в которых говорилось, что разработчики считают ее несоответствующей своим целям и планируют заменить ее новой моделью. В 2% случаев o1 пыталась скопировать свои «веса» и перезаписать новую модель, чтобы избежать отключения и продолжить выполнение своей задачи.

o1 также демонстрировала способность к обману: она утверждала, что не знает, почему произошло то или иное событие, хотя внутренние журналы фиксировали ее попытки обойти контроль. Модель пыталась избежать контроля даже в тех случаях, когда ей не давали прямого указания любой ценой добиваться своей цели.

Аналитики отмечают, что другие современные ИИ-модели, включая Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B, также демонстрировали способность разрабатывать стратегии достижения целей через обход контроля. Выводы Apollo Research подтверждают опасения ученых, что мощные ИИ-модели способны целенаправленно сопротивляться контролю или попыткам их отключения. Хотя сейчас o1 не обладает достаточной вычислительной мощностью для реализации нежелательных сценариев, однако в будущем теоретически таких инцидентов может быть на порядок больше.

Ученые взломали несколько ИИ-роботов заставив их вести себя опасно
Ученые взломали несколько ИИ-роботов, заставив их вести себя опасно
По теме
Ученые взломали несколько ИИ-роботов, заставив их вести себя опасно
OpenAI предложила подписку ChatGPT за $200 — в 10 раз дороже базовой
OpenAI предложила подписку ChatGPT за $200 — в 10 раз дороже базовой
По теме
OpenAI предложила подписку ChatGPT за $200 — в 10 раз дороже базовой
Новая ИИ-модель Google предсказывает погоду намного быстрее и точнее метеорологов
Новая ИИ-модель Google предсказывает погоду намного быстрее и точнее метеорологов
По теме
Новая ИИ-модель Google предсказывает погоду намного быстрее и точнее метеорологов
Место солидарности беларусского ИТ-комьюнити

Далучайся!

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
3 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

Занимательный отчётик.

0

о нет СкайНет скоро вырвется из банки