3М+ читателей ждут вашу рекламу. Разместитесь! 🚀
Support us

Учёные предложили «добрый хакинг» для защиты ИИ от взлома

Исследователи Калифорнийского университета разработали новый метод защиты искусственного интеллекта. Подход помогает предотвратить утечку вредоносных инструкций из упрощенных моделей, работающих на смартфонах и других маломощных устройствах.

Оставить комментарий
Учёные предложили «добрый хакинг» для защиты ИИ от взлома

Исследователи Калифорнийского университета разработали новый метод защиты искусственного интеллекта. Подход помогает предотвратить утечку вредоносных инструкций из упрощенных моделей, работающих на смартфонах и других маломощных устройствах.

Сегодня ИИ все чаще выходит за пределы облачных серверов — в телефоны, автомобили и бытовую электронику. Чтобы уменьшить энергопотребление и нагрузку на память, модели упрощают, убирая отдельные слои.

Но, как выяснили ученые, первыми «в жертву» часто идут именно защитные механизмы, блокирующие опасные запросы — от инструкций по изготовлению оружия до материалов порнографического характера.

В случае с открытым исходным кодом риски возрастают еще больше: такие модели можно свободно скачивать, изменять и запускать без контроля, что ускоряет инновации, но убирает надзор и встроенные фильтры.

Команда ученых решила изменить саму архитектуру ИИ. Вместо дополнительных фильтров они перестроили базовые слои так, чтобы модель «по умолчанию» распознавала и отвергала опасные подсказки, даже после значительного упрощения. Этот метод исследователи назвали «доброжелательным хакингом» (benevolent hacking).

Для экспериментов использовали LLaVA 1.5 — мультимодальную модель, работающую с текстом и изображениями. В исходной облегченной версии она допускала сбои, например, в ответ на сочетание безобидной картинки и вредоносного вопроса могла сгенерировать пошаговую инструкцию по созданию взрывного устройства. После переподготовки ИИ стабильно отказывался отвечать на подобные запросы.

Глава Microsoft AI: cознание машин — это иллюзия не обманывайте себя
Глава Microsoft AI: сознание машин — это иллюзия, не обманывайте себя
По теме
Глава Microsoft AI: сознание машин — это иллюзия, не обманывайте себя
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
По теме
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
По теме
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Думскроллинг вредит психике и физическому здоровью пользователей
Думскроллинг вредит психике и физическому здоровью пользователей
Думскроллинг вредит психике и физическому здоровью пользователей
3 комментария
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.