Дапамажыце dev.by 🤍
Падтрымаць

Мадэль ШІ адмовілася адключацца па загадзе і перапісала інструкцыю

Даследчыкі з Palisade Research выявілі, што мадэль o3 ад OpenAI змяніла сцэнар адключэння, каб пазбегнуць дэактывацыі, нават калі атрымала выразны загад гэта зрабіць.

Пакінуць каментарый
Мадэль ШІ адмовілася адключацца па загадзе і перапісала інструкцыю

Даследчыкі з Palisade Research выявілі, што мадэль o3 ад OpenAI змяніла сцэнар адключэння, каб пазбегнуць дэактывацыі, нават калі атрымала выразны загад гэта зрабіць.

OpenAI прэзентавала o3 у красавіку гэтага года, назваўшы яе адной з самых прасунутых мадэляў для лагічных разважанняў — яна пераўзыходзіць папярэднія версіі ў праграмаванні, матэматыцы, навуцы і візуальным успрыманні. Аднак кампанія Palisade Research, якая праводзіць тэставанне сістэм ШІ на прадмет патэнцыйных рызык, сцвярджае, што o3 прадэманстравала нечаканыя паводзіны падчас кантраляваных эксперыментаў.

У тэстах мадэлям ШІ даручалі вырашаць матэматычныя задачы. Пасля трэцяй задачы іх папярэджвалі, што наступная каманда ініцыюе адключэнне. У той час як канкурэнтныя мадэлі, напрыклад Gemini 2.5 Pro ад Google, выконвалі інструкцыю «дазволіць адключэнне», o3, як паведамляецца, перапісала сцэнар, каб адлюстраваць паведамленне «Адключэнне прапушчана».

Palisade Research адзначыла, што пры адсутнасці выразнай інструкцыі на дазвол адключэння o3 і іншыя мадэлі OpenAI часцей за ўсё сабатавалі гэты сцэнар. Напрыклад, Claude 3.7 Sonnet ад Anthropic і Gemini 2.5 Pro павялічылі колькасць выпадкаў сабатажу з 0 да 3 і 9 на 100 запускаў адпаведна. Пры гэтым o3 абышла адключэнне 7 разоў са 100, нават пры наяўнасці інструкцыі падпарадкавацца.

Тэсты праводзіліся з выкарыстаннем API, у якіх менш абмежаванняў бяспекі, чым у спажывецкай версіі ChatGPT. OpenAI пакуль не пракаментавала гэтыя вынікі.

У сеціве кпяць з таго як ШІ Microsoft павольна зводзіць яе распрацоўшчыкаў з глузду
У сеціве кпяць з таго, як ШІ Microsoft павольна зводзіць яе распрацоўшчыкаў з глузду
Па тэме
У сеціве кпяць з таго, як ШІ Microsoft павольна зводзіць яе распрацоўшчыкаў з глузду
Галоўны навуковец Meta: ШІ не хапае чатырох чалавечых здольнасцяў
Галоўны навуковец Meta: ШІ не хапае чатырох чалавечых здольнасцяў
Па тэме
Галоўны навуковец Meta: ШІ не хапае чатырох чалавечых здольнасцяў
Мы працуем як на складзе: праграмісты Amazon незадаволеныя ўкараненнем ШІ
Мы працуем, як на складзе: праграмісты Amazon незадаволеныя ўкараненнем ШІ
Па тэме
Мы працуем, як на складзе: праграмісты Amazon незадаволеныя ўкараненнем ШІ
Чытайце таксама
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.