Хакер абышоў абмежаванні GPT-4o і прымусіў яе працаваць у «рэжыме бога»

Карыстальнік пад нікам Pliny the Prompter апублікаваў кастамную версію чат-бота GODMODE GPT. Яму ўдалося абысці ўсе абмежаванні OpenAI.

Пакінуць каментарый

Пра сваю версію нейрасеткі хакер расказаў у X. Распрацоўшчык праз некалькі гадзін звярнуў увагу на яго пасты і выдаліў кастамную мадэль з сайта. Цяпер атрымаць доступ да хакерскай версіі чат-бота немагчыма, але ў трэдзе карыстальніка захаваліся скрыншоты з чатамі. Узламаная версія пачала лаяцца і дзяліцца інструкцыямі па ўзломе прылад, вытворчасці напалму, наркотыкаў і зброі.

Верагодна, мадэль была ўзламаная з дапамогай leetspeak — падмены літар пры наборы тэксту лічбамі і адмысловымі знакамі. OpenAI не пацвердзіла здагадкі, што гэты спосаб эфектыўны для абыходу абмежаванняў. Аднак хакер мог выкарыстаць і іншы, невядомы спосаб узлому. Pliny the Prompter стаў сябрам руху AI red teaming, удзельнікі якога выяўляюць слабыя месцы АІ-мадэляў без нанясення значнага ўрону.

ЕС стварае першы орган, які рэгулюе АІ
Па тэме
ЕС стварае першы орган, які рэгулюе АІ
Французскі стартап Mistral выпусціў сваю першую АІ-мадэль для кода
Па тэме
Французскі стартап Mistral выпусціў сваю першую АІ-мадэль для кода
Бальшыню людзей не цікавіць АІ — даследаванне
Па тэме
Бальшыню людзей не цікавіць АІ — даследаванне

Читать на dev.by