Айцішнік напісаў першы беларускамоўны посткіберпанк-раман. Пра што?
Support us

Учёные предложили «добрый хакинг» для защиты ИИ от взлома

Исследователи Калифорнийского университета разработали новый метод защиты искусственного интеллекта. Подход помогает предотвратить утечку вредоносных инструкций из упрощенных моделей, работающих на смартфонах и других маломощных устройствах.

Оставить комментарий
Учёные предложили «добрый хакинг» для защиты ИИ от взлома

Исследователи Калифорнийского университета разработали новый метод защиты искусственного интеллекта. Подход помогает предотвратить утечку вредоносных инструкций из упрощенных моделей, работающих на смартфонах и других маломощных устройствах.

Сегодня ИИ все чаще выходит за пределы облачных серверов — в телефоны, автомобили и бытовую электронику. Чтобы уменьшить энергопотребление и нагрузку на память, модели упрощают, убирая отдельные слои.

Но, как выяснили ученые, первыми «в жертву» часто идут именно защитные механизмы, блокирующие опасные запросы — от инструкций по изготовлению оружия до материалов порнографического характера.

В случае с открытым исходным кодом риски возрастают еще больше: такие модели можно свободно скачивать, изменять и запускать без контроля, что ускоряет инновации, но убирает надзор и встроенные фильтры.

Команда ученых решила изменить саму архитектуру ИИ. Вместо дополнительных фильтров они перестроили базовые слои так, чтобы модель «по умолчанию» распознавала и отвергала опасные подсказки, даже после значительного упрощения. Этот метод исследователи назвали «доброжелательным хакингом» (benevolent hacking).

Для экспериментов использовали LLaVA 1.5 — мультимодальную модель, работающую с текстом и изображениями. В исходной облегченной версии она допускала сбои, например, в ответ на сочетание безобидной картинки и вредоносного вопроса могла сгенерировать пошаговую инструкцию по созданию взрывного устройства. После переподготовки ИИ стабильно отказывался отвечать на подобные запросы.

Глава Microsoft AI: cознание машин — это иллюзия не обманывайте себя
Глава Microsoft AI: сознание машин — это иллюзия, не обманывайте себя
По теме
Глава Microsoft AI: сознание машин — это иллюзия, не обманывайте себя
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
По теме
За «умными» ответами Gemini скрывается изнурительный труд ИИ-модераторов
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
По теме
Стоит ли учиться кодить в эпоху ИИ — мнения топов бигтеха
Читайте также
Резиденты ПВТ показывали, как накормить корову по алгоритму и вырастить картошку с помощью ИИ
Резиденты ПВТ показывали, как накормить корову по алгоритму и вырастить картошку с помощью ИИ
Резиденты ПВТ показывали, как накормить корову по алгоритму и вырастить картошку с помощью ИИ
3 комментария
Торвальдс сказал «да» вайб-кодингу. Но не на проектах
Торвальдс сказал «да» вайб-кодингу. Но не на проектах
Торвальдс сказал «да» вайб-кодингу. Но не на проектах
Стартаперы назвали ИИ-компанию, которая провалится первой
Стартаперы назвали ИИ-компанию, которая провалится первой
Стартаперы назвали ИИ-компанию, которая провалится первой
Кошмар перед Рождеством: ИИ украсил Лондон к праздникам, нагенерил мутантов
Кошмар перед Рождеством: ИИ украсил Лондон к праздникам, нагенерил мутантов
Кошмар перед Рождеством: ИИ украсил Лондон к праздникам, нагенерил мутантов

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.