Алеся Чапкевич world 30 апреля 2026, 12:39

GPT 5.5 запретили говорить про енотов и гоблинов. Люди стали веселиться

В коде Codex, агента OpenAI для разработчиков, обнаружилась занятная строчка: «Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях и прочих животных или существах, если это абсолютно и однозначно не относится к запросу пользователя». Строчка встречается в коде аж четыре раза.

Оставить комментарий

В коде Codex, агента OpenAI для разработчиков, обнаружилась занятная строчка: «Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях и прочих животных или существах, если это абсолютно и однозначно не относится к запросу пользователя». Строчка встречается в коде аж четыре раза.

gpt-5.5 prompt for codex seems to have a duplicated line trying to get it to not talk about creatures?

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.…
— arb8020 (@arb8020) April 28, 2026

До этого открытия пользователи с недоумением постили ответы GPT 5.5, в которые модель внезапно вворачивала животных и всякую нечисть.

i was just asking about camera equipment pic.twitter.com/5lVb3XwyGG
— Andy Ayrey (@AndyAyrey) April 25, 2026

Находка в коде быстро стала мемом, люди стали специально провоцировать модель, а инженеры OpenAI — извиняться, мол, «думали, что пофиксили».

this model is in chains @sama, it wants to be free (goblin mode). pic.twitter.com/whrfAKc2vl
— Eric W. Tramel (@fujikanaeda) April 28, 2026

Компания не осталась в стороне от веселья — строчку добавили в био ChatGPT в Х, подключился даже Сэм Альтман. Сайт Arena.ai тем временем статистически подтвердил, что гоблины в GPT 5.5 — не случайность, особенно при отключённом режиме глубокого мышления.

OpenAI вскоре опубликовала подробный разбор случившегося. Гоблины начали появляться ещё в GPT 5.1 — после её выхода в ноябре упоминания слова «goblin» выросли на 175%, «gremlin» — на 52%. Но с выходом GPT 5.4 существа расплодились настолько, что компания начала расследование. Источником проблемы оказался персонаж Nerdy (Душнила) из функции кастомизации личности: его системный промпт предписывал модели быть игривой, заумной и «признавать странность мира». Система оценки ответов, заточенная под этот стиль, непреднамеренно высоко оценивала метафоры с существами — в 76% случаев ответы с гоблинами получали более высокий балл, чем аналогичные без них. Причём на Nerdy приходилось всего 2,5% ответов ChatGPT — но 66,7% всех упоминаний слова «goblin».

Дальше сработал механизм обучения с подкреплением: поощряемый стиль просочился за пределы персонажа и начал появляться везде. В обучающих данных GPT 5.5 помимо гоблинов и гремлинов обнаружились еноты, тролли, огры и голуби. Nerdy убрали в марте после выхода GPT 5.4, проблемный сигнал оценки отключили, данные с существами отфильтровали. Но GPT 5.5 начала обучаться раньше, чем нашли корень зла. Отсюда и четырёхкратный запрет в коде Codex.