Николай Чикишев world 26 мая 2026, 14:37

«Джын ужо выпушчаны»: з адкрытых ШІ-мадэляў можна зняць абарону за некалькі хвілінаў

Эксперымент паказаў, што ахоўныя абмежаванні ў адкрытых мадэлях Meta і Google можна абыйсці за лічаныя хвіліны з дапамогай агульнадаступных інструментаў.

2 каментарыя

«Джын ужо выпушчаны»: з адкрытых ШІ-мадэляў можна зняць абарону за некалькі хвілінаў

Эксперымент паказаў, што ахоўныя абмежаванні ў адкрытых мадэлях Meta і Google можна абыйсці за лічаныя хвіліны з дапамогай агульнадаступных інструментаў.

Група даследчыкаў у сферы кібербяспекі Alice правяла серыю эксперыментаў з выкарыстаннем метаду, які яны назвалі abliteration. Тэхналогія дазваляе падавіць унутраныя механізмы мадэлі, адказныя за адмову ад небяспечных інструкцый. Такі падыход цяжка прымяніць да цалкам закрытых сістэм накшталт ChatGPT або Claude, дзе карыстальнікі не маюць доступу да вагаў мадэлі. Але для адкрытых мадэляў або мадэляў з адкрытымі вагамі рызыка значна вышэйшая.

У ходзе эксперыменту спецыялісты змаглі зняць ахоўныя абмежаванні з мадэляў сямейства Meta Llama і Google Gemma. Пасля гэтага мадыфікаваныя версіі пачалі адказваць на запыты, звязаныя са шкодасным кодам, небяспечнымі рэчывамі, зброяй і сексуалізаваным кантэнтам з удзелам непаўналетніх. У звычайным стане зыходныя мадэлі такія запыты адхілялі.

Асабліва трывожна, што для такой мадыфікацыі не спатрэбіліся ні рэдкае абсталяванне, ні глыбокая тэхнічная экспертыза. Журналісту Financial Times удалося зняць ахоўныя абмежаванні з Meta Llama 3.3 прыкладна за 10 хвілін з дапамогай інструмента Heretic — без спецыялізаванага абсталявання і глыбокай тэхнічнай падрыхтоўкі.

Стваральнік Heretic сцвярджае, што інструмент ужо выкарыстоўвалі для стварэння каля 3500 «децэнзураваных» мадэляў, якія ў суме спампавалі каля 13 мільёнаў разоў. Ён таксама заявіў, што змог прыбраць абмежаванні з Google Gemma 4 усяго праз 90 хвілін пасля выхаду мадэлі.

Google назвала метад abliteration «вядомай тэхнічнай праблемай, з якой сутыкаюцца ўсе адкрытыя мадэлі», і заявіла, што праводзіць праверкі бяспекі перад рэлізам. Meta не пракаментавала эксперымент, але крыніца, блізкая да кампаніі, паказала на ўнутраную сістэму ацэнкі рызык, якая павінна абмяжоўваць выпуск мадэляў з патэнцыяльна катастрафічнымі наступствамі.

GitHub заявіў, што выдаляе матэрыялы, якія наўпрост дапамагаюць праводзіць атакі або распаўсюджваць шкодасныя ПЗ. Але платформа не заўсёды забараняе код, які тэарэтычна можна выкарыстоўваць для стварэння эксплойтаў або вірусаў. Калі такі код падаецца як адукацыйны або даследчы інструмент для спецыялістаў па кібербяспецы, GitHub можа пакінуць яго даступным.

Кіраўнік даследчай групы Alice Ноам Шварц сфармуляваў праблему жорстка: «Джын ужо выпушчаны з бутэлькі». Паводле яго, адкрытыя мадэлі хутка дагоняюць закрытыя па магчымасцях, а значыць, слабасць іх ахоўных механізмаў становіцца не тэарэтычнай, а практычнай рызыкай.

«Ніхто нічога не ведае»: эксперт аб разрыве паміж хайпам вакол ІІ і рэальным эфектам

Чаму MCP стаў важным інструментам для ІІ-распрацоўкі

Чаму не варта пакідаць чат-бот у рэжыме па змаўчанні

2 каментарыя

Тэкст: Николай Чикишев

Знайшлі памылку ў тэксце-вылучыце яе і націсніце Ctrl+Enter. Знайшлі памылку ў тэксце-вылучыце яе і націсніце кнопку «Паведаміць пра памылку».

Сайт компании Вакансии

Размяшчэнне рэкламы

ChatGPT навучыўся лёгка праходзіць капчу. Эксперты б'юць трывогу

ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне

6 каментарыяў

ШІ можна ўзламаць, напісаўшы промпт у вершах

ШІ-мадэлі хлусяць і падманваюць, каб выратаваць іншыя ШІ

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Alex V

0

Heretic берет модель, прогоняет ее по каверзным вопросам, отслеживает активации нейронов и пытается вывести области, отвечающие за отказ. Потом понижает там веса. Это не всегда так уж здорово работает. Модель начинает меньше отказываться, но может стать в целом хуже. Помню, года два назад abliteration часто приводил к сильному ухудшению работы с инструментами.

Google назвала метод abliteration «известной технической проблемой, с которой сталкиваются все открытые модели»

Это как сказать, что возможность взять чей-то открытый код, форкнуть и поменять - это техническая проблема. Открытые модели на то и открытые, что любой может их редактировать.

table Table в Database

0

мы все умрем?

Увайдзіце, каб пакінуць каментарый