🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Учёные предложили «добрый хакинг» для защиты ИИ от взлома

Исследователи Калифорнийского университета разработали новый метод защиты искусственного интеллекта. Подход помогает предотвратить утечку вредоносных инструкций из упрощенных моделей, работающих на смартфонах и других маломощных устройствах.

Оставить комментарий
Учёные предложили «добрый хакинг» для защиты ИИ от взлома

Исследователи Калифорнийского университета разработали новый метод защиты искусственного интеллекта. Подход помогает предотвратить утечку вредоносных инструкций из упрощенных моделей, работающих на смартфонах и других маломощных устройствах.

Сегодня ИИ все чаще выходит за пределы облачных серверов — в телефоны, автомобили и бытовую электронику. Чтобы уменьшить энергопотребление и нагрузку на память, модели упрощают, убирая отдельные слои.

Но, как выяснили ученые, первыми «в жертву» часто идут именно защитные механизмы, блокирующие опасные запросы — от инструкций по изготовлению оружия до материалов порнографического характера.

В случае с открытым исходным кодом риски возрастают еще больше: такие модели можно свободно скачивать, изменять и запускать без контроля, что ускоряет инновации, но убирает надзор и встроенные фильтры.

Команда ученых решила изменить саму архитектуру ИИ. Вместо дополнительных фильтров они перестроили базовые слои так, чтобы модель «по умолчанию» распознавала и отвергала опасные подсказки, даже после значительного упрощения. Этот метод исследователи назвали «доброжелательным хакингом» (benevolent hacking).

Для экспериментов использовали LLaVA 1.5 — мультимодальную модель, работающую с текстом и изображениями. В исходной облегченной версии она допускала сбои, например, в ответ на сочетание безобидной картинки и вредоносного вопроса могла сгенерировать пошаговую инструкцию по созданию взрывного устройства. После переподготовки ИИ стабильно отказывался отвечать на подобные запросы.

Глава Microsoft AI: cознание машин — это иллюзия не обманывайте себя
Глава Microsoft AI: сознание машин — это иллюзия, не обманывайте себя
По теме
Глава Microsoft AI: сознание машин — это иллюзия, не обманывайте себя
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
По теме
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
По теме
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Главная ошибка CEO в работе с ИИ — мнение эксперта
Главная ошибка CEO в работе с ИИ — мнение эксперта
Главная ошибка CEO в работе с ИИ — мнение эксперта
«Это не карьерная лестница, а стена»: топ LinkedIn о будущем карьеры в эпоху ИИ
«Это не карьерная лестница, а стена»: топ LinkedIn о будущем карьеры в эпоху ИИ
«Это не карьерная лестница, а стена»: топ LinkedIn о будущем карьеры в эпоху ИИ
Slack обновили по-крупному — более 30 новых ИИ-функций
Slack обновили по-крупному — более 30 новых ИИ-функций
Slack обновили по-крупному — более 30 новых ИИ-функций
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.