GPT 5.5 забаранілі гаварыць пра янотаў і гоблінаў. Людзі пачалі весяліцца
У кодзе Codex, агента OpenAI для распрацоўшчыкаў, знайшоўся цікавы радок: «Ніколі не кажы пра гоблінаў, грэмлінаў, янотаў, троляў, ограў, галубоў і іншых жывёл ці істотаў, калі гэта абсалютна і адназначна не датычаць запыту карыстальніка». Радок сустракаецца ў кодзе аж чатыры разы.
У кодзе Codex, агента OpenAI для распрацоўшчыкаў, знайшоўся цікавы радок: «Ніколі не кажы пра гоблінаў, грэмлінаў, янотаў, троляў, ограў, галубоў і іншых жывёл ці істотаў, калі гэта абсалютна і адназначна не датычаць запыту карыстальніка». Радок сустракаецца ў кодзе аж чатыры разы.
gpt-5.5 prompt for codex seems to have a duplicated line trying to get it to not talk about creatures?
Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.…
Кампанія не засталася ў баку ад весялосці — радок дадалі ў біо ChatGPT у X, падключыўсянават Сэм Альтман. Сайт Arena.ai тым часам статыстычна пацвердзіў, што гобліны ў GPT 5.5 — не выпадковасць, асабліва пры адключаным рэжыме глыбокага мыслення.
OpenAI хутка апублікавала падрабязны разбор таго, што адбылося. Гобліны пачалі з’яўляцца яшчэ ў GPT 5.1 — пасля яе выхаду ў лістападзе ўпаміны слова «goblin» выраслі на 175%, «gremlin» — на 52%. Але з выхадам GPT 5.4 істоты распладзіліся настолькі, што кампанія пачала расследаванне. Крыніцай праблемы аказаўся персанаж Nerdy (Душніла) з функцыі кастамізацыі асобы: яго сістэмны промпт прадпісваў мадэлі быць гуллівай, разумнай і «прызнаваць дзівоснасць свету». Сістэма ацэнкі адказаў, заточаная пад гэты стыль, ненаўмысна высока ацэньвала метафары з істотамі — у 76% выпадкаў адказы з гоблінамі атрымлівалі больш высокі бал, чым аналагічныя без іх. Прычым на Nerdy прыходзілася толькі 2,5% адказаў ChatGPT — але 66,7% усіх упамінаў слова «goblin».
Далей спрацаваў механізм навучання з падмацаваннем: заахвочваемы стыль прасачыўся за межы персанажа і пачаў з’яўляцца паўсюль. У навучальных дадзеных GPT 5.5 акрамя гоблінаў і грэмлінаў выявіліся яноты, тролі, огры і галубы. Nerdy выдалілі ў сакавіку пасля выхаду GPT 5.4, праблемны сігнал ацэнкі адключылі, дадзеныя з істотамі адфільтравалі. Але GPT 5.5 пачала навучацца раней, чым знайшлі корань зла. Адсюль і чатырохразовая забарона ў кодзе Codex.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.