Дапамажыце dev.by 🤍
Падтрымаць

«Джын ужо выпушчаны»: з адкрытых ШІ-мадэляў можна зняць абарону за некалькі хвілінаў

Эксперымент паказаў, што ахоўныя абмежаванні ў адкрытых мадэлях Meta і Google можна абыйсці за лічаныя хвіліны з дапамогай агульнадаступных інструментаў.

Пакінуць каментарый
«Джын ужо выпушчаны»: з адкрытых ШІ-мадэляў можна зняць абарону за некалькі хвілінаў

Эксперымент паказаў, што ахоўныя абмежаванні ў адкрытых мадэлях Meta і Google можна абыйсці за лічаныя хвіліны з дапамогай агульнадаступных інструментаў.

Група даследчыкаў у сферы кібербяспекі Alice правяла серыю эксперыментаў з выкарыстаннем метаду, які яны назвалі abliteration. Тэхналогія дазваляе падавіць унутраныя механізмы мадэлі, адказныя за адмову ад небяспечных інструкцый. Такі падыход цяжка прымяніць да цалкам закрытых сістэм накшталт ChatGPT або Claude, дзе карыстальнікі не маюць доступу да вагаў мадэлі. Але для адкрытых мадэляў або мадэляў з адкрытымі вагамі рызыка значна вышэйшая.

У ходзе эксперыменту спецыялісты змаглі зняць ахоўныя абмежаванні з мадэляў сямейства Meta Llama і Google Gemma. Пасля гэтага мадыфікаваныя версіі пачалі адказваць на запыты, звязаныя са шкодасным кодам, небяспечнымі рэчывамі, зброяй і сексуалізаваным кантэнтам з удзелам непаўналетніх. У звычайным стане зыходныя мадэлі такія запыты адхілялі.

Асабліва трывожна, што для такой мадыфікацыі не спатрэбіліся ні рэдкае абсталяванне, ні глыбокая тэхнічная экспертыза. Журналісту Financial Times удалося зняць ахоўныя абмежаванні з Meta Llama 3.3 прыкладна за 10 хвілін з дапамогай інструмента Heretic — без спецыялізаванага абсталявання і глыбокай тэхнічнай падрыхтоўкі.

Стваральнік Heretic сцвярджае, што інструмент ужо выкарыстоўвалі для стварэння каля 3500 «децэнзураваных» мадэляў, якія ў суме спампавалі каля 13 мільёнаў разоў. Ён таксама заявіў, што змог прыбраць абмежаванні з Google Gemma 4 усяго праз 90 хвілін пасля выхаду мадэлі.

Google назвала метад abliteration «вядомай тэхнічнай праблемай, з якой сутыкаюцца ўсе адкрытыя мадэлі», і заявіла, што праводзіць праверкі бяспекі перад рэлізам. Meta не пракаментавала эксперымент, але крыніца, блізкая да кампаніі, паказала на ўнутраную сістэму ацэнкі рызык, якая павінна абмяжоўваць выпуск мадэляў з патэнцыяльна катастрафічнымі наступствамі.

GitHub заявіў, што выдаляе матэрыялы, якія наўпрост дапамагаюць праводзіць атакі або распаўсюджваць шкодасныя ПЗ. Але платформа не заўсёды забараняе код, які тэарэтычна можна выкарыстоўваць для стварэння эксплойтаў або вірусаў. Калі такі код падаецца як адукацыйны або даследчы інструмент для спецыялістаў па кібербяспецы, GitHub можа пакінуць яго даступным.

Кіраўнік даследчай групы Alice Ноам Шварц сфармуляваў праблему жорстка: «Джын ужо выпушчаны з бутэлькі». Паводле яго, адкрытыя мадэлі хутка дагоняюць закрытыя па магчымасцях, а значыць, слабасць іх ахоўных механізмаў становіцца не тэарэтычнай, а практычнай рызыкай.

«Ніхто нічога не ведае»: эксперт аб разрыве паміж хайпам вакол ІІ і рэальным эфектам
«Ніхто нічога не ведае»: эксперт аб разрыве паміж хайпам вакол ІІ і рэальным эфектам
Па тэме
«Ніхто нічога не ведае»: эксперт аб разрыве паміж хайпам вакол ІІ і рэальным эфектам
Чаму MCP стаў важным інструментам для ІІ-распрацоўкі
Чаму MCP стаў важным інструментам для ІІ-распрацоўкі
Па тэме
Чаму MCP стаў важным інструментам для ІІ-распрацоўкі
Чаму не варта пакідаць чат-бот у рэжыме па змаўчанні
Чаму не варта пакідаць чат-бот у рэжыме па змаўчанні
Па тэме
Чаму не варта пакідаць чат-бот у рэжыме па змаўчанні
Чытайце таксама
ChatGPT навучыўся лёгка праходзіць капчу. Эксперты б'юць трывогу
ChatGPT навучыўся лёгка праходзіць капчу. Эксперты б'юць трывогу
ChatGPT навучыўся лёгка праходзіць капчу. Эксперты б'юць трывогу
ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне
ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне
ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне
6 каментарыяў
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ-мадэлі хлусяць і падманваюць, каб выратаваць іншыя ШІ
ШІ-мадэлі хлусяць і падманваюць, каб выратаваць іншыя ШІ
ШІ-мадэлі хлусяць і падманваюць, каб выратаваць іншыя ШІ

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.