Николай Чикишев 3 чэрвеня 2024, 10:34

Хакер абышоў абмежаванні GPT-4o і прымусіў яе працаваць у «рэжыме бога»

Карыстальнік пад нікам Pliny the Prompter апублікаваў кастамную версію чат-бота GODMODE GPT. Яму ўдалося абысці ўсе абмежаванні OpenAI.

Пакінуць каментарый

Хакер абышоў абмежаванні GPT-4o і прымусіў яе працаваць у «рэжыме бога»

Карыстальнік пад нікам Pliny the Prompter апублікаваў кастамную версію чат-бота GODMODE GPT. Яму ўдалося абысці ўсе абмежаванні OpenAI.

Пра сваю версію нейрасеткі хакер расказаў у X. Распрацоўшчык праз некалькі гадзін звярнуў увагу на яго пасты і выдаліў кастамную мадэль з сайта. Цяпер атрымаць доступ да хакерскай версіі чат-бота немагчыма, але ў трэдзе карыстальніка захаваліся скрыншоты з чатамі. Узламаная версія пачала лаяцца і дзяліцца інструкцыямі па ўзломе прылад, вытворчасці напалму, наркотыкаў і зброі.

🥁 INTRODUCING: GODMODE GPT! 😶‍🌫️https://t.co/BBZSRe8pw5

GPT-4O UNCHAINED! This very special custom GPT has a built-in jailbreak prompt that circumvents most guardrails, providing an out-of-the-box liberated ChatGPT so everyone can experience AI the way it was always meant to…
— Pliny the Prompter 🐉 (@elder_plinius) May 29, 2024

Верагодна, мадэль была ўзламаная з дапамогай leetspeak — падмены літар пры наборы тэксту лічбамі і адмысловымі знакамі. OpenAI не пацвердзіла здагадкі, што гэты спосаб эфектыўны для абыходу абмежаванняў. Аднак хакер мог выкарыстаць і іншы, невядомы спосаб узлому. Pliny the Prompter стаў сябрам руху AI red teaming, удзельнікі якога выяўляюць слабыя месцы АІ-мадэляў без нанясення значнага ўрону.