Алеся Чапкевич world 30 красавіка 2026, 12:39

GPT 5.5 забаранілі гаварыць пра янотаў і гоблінаў. Людзі пачалі весяліцца

У кодзе Codex, агента OpenAI для распрацоўшчыкаў, знайшоўся цікавы радок: «Ніколі не кажы пра гоблінаў, грэмлінаў, янотаў, троляў, ограў, галубоў і іншых жывёл ці істотаў, калі гэта абсалютна і адназначна не датычаць запыту карыстальніка». Радок сустракаецца ў кодзе аж чатыры разы.

Пакінуць каментарый

У кодзе Codex, агента OpenAI для распрацоўшчыкаў, знайшоўся цікавы радок: «Ніколі не кажы пра гоблінаў, грэмлінаў, янотаў, троляў, ограў, галубоў і іншых жывёл ці істотаў, калі гэта абсалютна і адназначна не датычаць запыту карыстальніка». Радок сустракаецца ў кодзе аж чатыры разы.

gpt-5.5 prompt for codex seems to have a duplicated line trying to get it to not talk about creatures?

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.…
— arb8020 (@arb8020) April 28, 2026

Да гэтага адкрыцця карыстальнікі са здзіўленнем посцілі адказы GPT 5.5, у якія мадэль раптоўна выкручвала жывёлінаў і ўсялякую нечысць.

i was just asking about camera equipment pic.twitter.com/5lVb3XwyGG
— Andy Ayrey (@AndyAyrey) April 25, 2026

Знаходка ў кодзе хутка стала мемам, людзі пачалі спецыяльна правакаваць мадэль, а інжынеры OpenAI — выбачацца, маўляў, «думалі, што пафіксілі».

this model is in chains @sama, it wants to be free (goblin mode). pic.twitter.com/whrfAKc2vl
— Eric W. Tramel (@fujikanaeda) April 28, 2026

Кампанія не засталася ў баку ад весялосці — радок дадалі ў біо ChatGPT у X, падключыўся нават Сэм Альтман. Сайт Arena.ai тым часам статыстычна пацвердзіў, што гобліны ў GPT 5.5 — не выпадковасць, асабліва пры адключаным рэжыме глыбокага мыслення.

OpenAI хутка апублікавала падрабязны разбор таго, што адбылося. Гобліны пачалі з’яўляцца яшчэ ў GPT 5.1 — пасля яе выхаду ў лістападзе ўпаміны слова «goblin» выраслі на 175%, «gremlin» — на 52%. Але з выхадам GPT 5.4 істоты распладзіліся настолькі, што кампанія пачала расследаванне. Крыніцай праблемы аказаўся персанаж Nerdy (Душніла) з функцыі кастамізацыі асобы: яго сістэмны промпт прадпісваў мадэлі быць гуллівай, разумнай і «прызнаваць дзівоснасць свету». Сістэма ацэнкі адказаў, заточаная пад гэты стыль, ненаўмысна высока ацэньвала метафары з істотамі — у 76% выпадкаў адказы з гоблінамі атрымлівалі больш высокі бал, чым аналагічныя без іх. Прычым на Nerdy прыходзілася толькі 2,5% адказаў ChatGPT — але 66,7% усіх упамінаў слова «goblin».

Далей спрацаваў механізм навучання з падмацаваннем: заахвочваемы стыль прасачыўся за межы персанажа і пачаў з’яўляцца паўсюль. У навучальных дадзеных GPT 5.5 акрамя гоблінаў і грэмлінаў выявіліся яноты, тролі, огры і галубы. Nerdy выдалілі ў сакавіку пасля выхаду GPT 5.4, праблемны сігнал ацэнкі адключылі, дадзеныя з істотамі адфільтравалі. Але GPT 5.5 пачала навучацца раней, чым знайшлі корань зла. Адсюль і чатырохразовая забарона ў кодзе Codex.