Support us

Учёные предложили «добрый хакинг» для защиты ИИ от взлома

Исследователи Калифорнийского университета разработали новый метод защиты искусственного интеллекта. Подход помогает предотвратить утечку вредоносных инструкций из упрощенных моделей, работающих на смартфонах и других маломощных устройствах.

Оставить комментарий
Учёные предложили «добрый хакинг» для защиты ИИ от взлома

Исследователи Калифорнийского университета разработали новый метод защиты искусственного интеллекта. Подход помогает предотвратить утечку вредоносных инструкций из упрощенных моделей, работающих на смартфонах и других маломощных устройствах.

Сегодня ИИ все чаще выходит за пределы облачных серверов — в телефоны, автомобили и бытовую электронику. Чтобы уменьшить энергопотребление и нагрузку на память, модели упрощают, убирая отдельные слои.

Но, как выяснили ученые, первыми «в жертву» часто идут именно защитные механизмы, блокирующие опасные запросы — от инструкций по изготовлению оружия до материалов порнографического характера.

В случае с открытым исходным кодом риски возрастают еще больше: такие модели можно свободно скачивать, изменять и запускать без контроля, что ускоряет инновации, но убирает надзор и встроенные фильтры.

Команда ученых решила изменить саму архитектуру ИИ. Вместо дополнительных фильтров они перестроили базовые слои так, чтобы модель «по умолчанию» распознавала и отвергала опасные подсказки, даже после значительного упрощения. Этот метод исследователи назвали «доброжелательным хакингом» (benevolent hacking).

Для экспериментов использовали LLaVA 1.5 — мультимодальную модель, работающую с текстом и изображениями. В исходной облегченной версии она допускала сбои, например, в ответ на сочетание безобидной картинки и вредоносного вопроса могла сгенерировать пошаговую инструкцию по созданию взрывного устройства. После переподготовки ИИ стабильно отказывался отвечать на подобные запросы.

Глава Microsoft AI: cознание машин — это иллюзия не обманывайте себя
Глава Microsoft AI: сознание машин — это иллюзия, не обманывайте себя
По теме
Глава Microsoft AI: сознание машин — это иллюзия, не обманывайте себя
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
По теме
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
По теме
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
Читайте также
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
Google показала ИИ-браузер, который превращает вкладки в приложения
Google показала ИИ-браузер, который превращает вкладки в приложения
Google показала ИИ-браузер, который превращает вкладки в приложения
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
Топ OpenAI назвал три сферы, которые ИИ автоматизирует первыми
Топ OpenAI назвал три сферы, которые ИИ автоматизирует первыми
Топ OpenAI назвал три сферы, которые ИИ автоматизирует первыми
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.