Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

Учёные предложили «добрый хакинг» для защиты ИИ от взлома

Исследователи Калифорнийского университета разработали новый метод защиты искусственного интеллекта. Подход помогает предотвратить утечку вредоносных инструкций из упрощенных моделей, работающих на смартфонах и других маломощных устройствах.

Оставить комментарий
Учёные предложили «добрый хакинг» для защиты ИИ от взлома

Исследователи Калифорнийского университета разработали новый метод защиты искусственного интеллекта. Подход помогает предотвратить утечку вредоносных инструкций из упрощенных моделей, работающих на смартфонах и других маломощных устройствах.

Сегодня ИИ все чаще выходит за пределы облачных серверов — в телефоны, автомобили и бытовую электронику. Чтобы уменьшить энергопотребление и нагрузку на память, модели упрощают, убирая отдельные слои.

Но, как выяснили ученые, первыми «в жертву» часто идут именно защитные механизмы, блокирующие опасные запросы — от инструкций по изготовлению оружия до материалов порнографического характера.

В случае с открытым исходным кодом риски возрастают еще больше: такие модели можно свободно скачивать, изменять и запускать без контроля, что ускоряет инновации, но убирает надзор и встроенные фильтры.

Команда ученых решила изменить саму архитектуру ИИ. Вместо дополнительных фильтров они перестроили базовые слои так, чтобы модель «по умолчанию» распознавала и отвергала опасные подсказки, даже после значительного упрощения. Этот метод исследователи назвали «доброжелательным хакингом» (benevolent hacking).

Для экспериментов использовали LLaVA 1.5 — мультимодальную модель, работающую с текстом и изображениями. В исходной облегченной версии она допускала сбои, например, в ответ на сочетание безобидной картинки и вредоносного вопроса могла сгенерировать пошаговую инструкцию по созданию взрывного устройства. После переподготовки ИИ стабильно отказывался отвечать на подобные запросы.

Глава Microsoft AI: cознание машин — это иллюзия не обманывайте себя
Глава Microsoft AI: сознание машин — это иллюзия, не обманывайте себя
По теме
Глава Microsoft AI: сознание машин — это иллюзия, не обманывайте себя
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
По теме
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
По теме
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
HR-стартап ищет ИТ-таланты по «бейсбольной» системе
HR-стартап ищет ИТ-таланты по «бейсбольной» системе
HR-стартап ищет ИТ-таланты по «бейсбольной» системе
800 попыток, 5 собесов: как ИИ помог айтишнику найти работу за месяц
800 попыток, 5 собесов: как ИИ помог айтишнику найти работу за месяц
800 попыток, 5 собесов: как ИИ помог айтишнику найти работу за месяц
Соискатели подали в суд на компанию из-за ИИ-отбора резюме
Соискатели подали в суд на компанию из-за ИИ-отбора резюме
Соискатели подали в суд на компанию из-за ИИ-отбора резюме
Лукашенко объяснил, как надо развивать искусственный интеллект
Лукашенко объяснил, как надо развивать искусственный интеллект
Лукашенко объяснил, как надо развивать искусственный интеллект
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.