Хакер абышоў абмежаванні GPT-4o і прымусіў яе працаваць у «рэжыме бога»
Карыстальнік пад нікам Pliny the Prompter апублікаваў кастамную версію чат-бота GODMODE GPT. Яму ўдалося абысці ўсе абмежаванні OpenAI.
Пра сваю версію нейрасеткі хакер расказаў у X. Распрацоўшчык праз некалькі гадзін звярнуў увагу на яго пасты і выдаліў кастамную мадэль з сайта. Цяпер атрымаць доступ да хакерскай версіі чат-бота немагчыма, але ў трэдзе карыстальніка захаваліся скрыншоты з чатамі. Узламаная версія пачала лаяцца і дзяліцца інструкцыямі па ўзломе прылад, вытворчасці напалму, наркотыкаў і зброі.
Верагодна, мадэль была ўзламаная з дапамогай leetspeak — падмены літар пры наборы тэксту лічбамі і адмысловымі знакамі. OpenAI не пацвердзіла здагадкі, што гэты спосаб эфектыўны для абыходу абмежаванняў. Аднак хакер мог выкарыстаць і іншы, невядомы спосаб узлому. Pliny the Prompter стаў сябрам руху AI red teaming, удзельнікі якога выяўляюць слабыя месцы АІ-мадэляў без нанясення значнага ўрону.
Читать на dev.by