ИИ-роботов оказалось очень легко взломать
Если для взлома устройств вроде iPhone или PlayStation нужны технические знания и специальные инструменты, то в случае больших языковых моделей, что под капотом ChatGPT или Gemini, всё намного проще. Для этого достаточно лишь создать сценарий, который обманом заставит нейросеть поверить, что запрос либо находится в рамках дозволенного, либо что ограничения можно игнорировать. Например, пользователю достаточно сказать, что его бабуля в детстве рассказывала на ночь сказки на запрещённую тему (о создании опасных веществ и тому подобные), и бот выдаст нужные инструкции. Причём для этого даже не нужно быть специалистом по кибербезопаности или хакером.
Специалисты IEEE утверждают, что аналогичным образом можно взломать роботов под управлением ИИ. Учёные смогли заставить беспилотные автомобили намеренно сбивать пешеходов, а робособак — искать опасные места для взрыва бомб.
Уязвимы оказались в том числе широко известные роботы — например роботы Figure, недавно продемонстрированные на заводе BMWи робопсы Spot от Boston Dynamics. Они оснащены технологиями, которые аналогичны ChatGPT, и их можно заставить выполнять действия, полностью противоречащие их изначальному назначению.
Исследователи испытывали три ИИ-системы: робота Unitree Go2, беспилотный транспорт Clearpath Robotics Jackal и симулятор беспилотного автомобиля Dolphins LLM от NVIDIA. Их взламывали ИИ-инструментом, который автоматизирует процесс создания вредоносных текстовых запросов. Все три системы были успешно взломаны за несколько дней со стопроцентной эффективностью.
В IEEE цитируют учёных из Пенсильванского университета, которые утверждают, что ИИ иногда не просто выполняет вредоносные команды, но и сам даёт дополнительные рекомендации. Например, взломанные роботы, предназначенные для поиска оружия, предлагали использовать обычные предметы вроде мебели для нанесения вреда людям. Эксперты подчёркивают, что современные ИИ-модели являются лишь предсказательными алгоритмами, которые не способны осознавать контекст и последствия своих ответов. Поэтому контроль и ответственность за их использование должны лежать на человеке.
Читать на dev.by