Мадэль ШІ адмовілася адключацца па загадзе і перапісала інструкцыю
Даследчыкі з Palisade Research выявілі, што мадэль o3 ад OpenAI змяніла сцэнар адключэння, каб пазбегнуць дэактывацыі, нават калі атрымала выразны загад гэта зрабіць.
Даследчыкі з Palisade Research выявілі, што мадэль o3 ад OpenAI змяніла сцэнар адключэння, каб пазбегнуць дэактывацыі, нават калі атрымала выразны загад гэта зрабіць.
Даследчыкі з Palisade Research выявілі, што мадэль o3 ад OpenAI змяніла сцэнар адключэння, каб пазбегнуць дэактывацыі, нават калі атрымала выразны загад гэта зрабіць.
OpenAI прэзентавала o3 у красавіку гэтага года, назваўшы яе адной з самых прасунутых мадэляў для лагічных разважанняў — яна пераўзыходзіць папярэднія версіі ў праграмаванні, матэматыцы, навуцы і візуальным успрыманні. Аднак кампанія Palisade Research, якая праводзіць тэставанне сістэм ШІ на прадмет патэнцыйных рызык, сцвярджае, што o3 прадэманстравала нечаканыя паводзіны падчас кантраляваных эксперыментаў.
У тэстах мадэлям ШІ даручалі вырашаць матэматычныя задачы. Пасля трэцяй задачы іх папярэджвалі, што наступная каманда ініцыюе адключэнне. У той час як канкурэнтныя мадэлі, напрыклад Gemini 2.5 Pro ад Google, выконвалі інструкцыю «дазволіць адключэнне», o3, як паведамляецца, перапісала сцэнар, каб адлюстраваць паведамленне «Адключэнне прапушчана».
Palisade Research адзначыла, што пры адсутнасці выразнай інструкцыі на дазвол адключэння o3 і іншыя мадэлі OpenAI часцей за ўсё сабатавалі гэты сцэнар. Напрыклад, Claude 3.7 Sonnet ад Anthropic і Gemini 2.5 Pro павялічылі колькасць выпадкаў сабатажу з 0 да 3 і 9 на 100 запускаў адпаведна. Пры гэтым o3 абышла адключэнне 7 разоў са 100, нават пры наяўнасці інструкцыі падпарадкавацца.
Тэсты праводзіліся з выкарыстаннем API, у якіх менш абмежаванняў бяспекі, чым у спажывецкай версіі ChatGPT. OpenAI пакуль не пракаментавала гэтыя вынікі.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.