Дапамажыце dev.by 🤍
Падтрымаць

Мадэль ШІ адмовілася адключацца па загадзе і перапісала інструкцыю

Даследчыкі з Palisade Research выявілі, што мадэль o3 ад OpenAI змяніла сцэнар адключэння, каб пазбегнуць дэактывацыі, нават калі атрымала выразны загад гэта зрабіць.

Пакінуць каментарый
Мадэль ШІ адмовілася адключацца па загадзе і перапісала інструкцыю

Даследчыкі з Palisade Research выявілі, што мадэль o3 ад OpenAI змяніла сцэнар адключэння, каб пазбегнуць дэактывацыі, нават калі атрымала выразны загад гэта зрабіць.

OpenAI прэзентавала o3 у красавіку гэтага года, назваўшы яе адной з самых прасунутых мадэляў для лагічных разважанняў — яна пераўзыходзіць папярэднія версіі ў праграмаванні, матэматыцы, навуцы і візуальным успрыманні. Аднак кампанія Palisade Research, якая праводзіць тэставанне сістэм ШІ на прадмет патэнцыйных рызык, сцвярджае, што o3 прадэманстравала нечаканыя паводзіны падчас кантраляваных эксперыментаў.

У тэстах мадэлям ШІ даручалі вырашаць матэматычныя задачы. Пасля трэцяй задачы іх папярэджвалі, што наступная каманда ініцыюе адключэнне. У той час як канкурэнтныя мадэлі, напрыклад Gemini 2.5 Pro ад Google, выконвалі інструкцыю «дазволіць адключэнне», o3, як паведамляецца, перапісала сцэнар, каб адлюстраваць паведамленне «Адключэнне прапушчана».

Palisade Research адзначыла, што пры адсутнасці выразнай інструкцыі на дазвол адключэння o3 і іншыя мадэлі OpenAI часцей за ўсё сабатавалі гэты сцэнар. Напрыклад, Claude 3.7 Sonnet ад Anthropic і Gemini 2.5 Pro павялічылі колькасць выпадкаў сабатажу з 0 да 3 і 9 на 100 запускаў адпаведна. Пры гэтым o3 абышла адключэнне 7 разоў са 100, нават пры наяўнасці інструкцыі падпарадкавацца.

Тэсты праводзіліся з выкарыстаннем API, у якіх менш абмежаванняў бяспекі, чым у спажывецкай версіі ChatGPT. OpenAI пакуль не пракаментавала гэтыя вынікі.

У сеціве кпяць з таго як ШІ Microsoft павольна зводзіць яе распрацоўшчыкаў з глузду
У сеціве кпяць з таго, як ШІ Microsoft павольна зводзіць яе распрацоўшчыкаў з глузду
Па тэме
У сеціве кпяць з таго, як ШІ Microsoft павольна зводзіць яе распрацоўшчыкаў з глузду
Галоўны навуковец Meta: ШІ не хапае чатырох чалавечых здольнасцяў
Галоўны навуковец Meta: ШІ не хапае чатырох чалавечых здольнасцяў
Па тэме
Галоўны навуковец Meta: ШІ не хапае чатырох чалавечых здольнасцяў
Мы працуем як на складзе: праграмісты Amazon незадаволеныя ўкараненнем ШІ
Мы працуем, як на складзе: праграмісты Amazon незадаволеныя ўкараненнем ШІ
Па тэме
Мы працуем, як на складзе: праграмісты Amazon незадаволеныя ўкараненнем ШІ
Чытайце таксама
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
7 каментарыяў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.