GPT 5.5 запретили говорить про енотов и гоблинов. Люди стали веселиться
В коде Codex, агента OpenAI для разработчиков, обнаружилась занятная строчка: «Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях и прочих животных или существах, если это абсолютно и однозначно не относится к запросу пользователя». Строчка встречается в коде аж четыре раза.
В коде Codex, агента OpenAI для разработчиков, обнаружилась занятная строчка: «Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях и прочих животных или существах, если это абсолютно и однозначно не относится к запросу пользователя». Строчка встречается в коде аж четыре раза.
gpt-5.5 prompt for codex seems to have a duplicated line trying to get it to not talk about creatures?
Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.…
Компания не осталась в стороне от веселья — строчку добавили в био ChatGPT в Х, подключился даже Сэм Альтман. Сайт Arena.ai тем временем статистически подтвердил, что гоблины в GPT 5.5 — не случайность, особенно при отключённом режиме глубокого мышления.
OpenAI вскоре опубликовала подробный разбор случившегося. Гоблины начали появляться ещё в GPT 5.1 — после её выхода в ноябре упоминания слова «goblin» выросли на 175%, «gremlin» — на 52%. Но с выходом GPT 5.4 существа расплодились настолько, что компания начала расследование. Источником проблемы оказался персонаж Nerdy (Душнила) из функции кастомизации личности: его системный промпт предписывал модели быть игривой, заумной и «признавать странность мира». Система оценки ответов, заточенная под этот стиль, непреднамеренно высоко оценивала метафоры с существами — в 76% случаев ответы с гоблинами получали более высокий балл, чем аналогичные без них. Причём на Nerdy приходилось всего 2,5% ответов ChatGPT — но 66,7% всех упоминаний слова «goblin».
Дальше сработал механизм обучения с подкреплением: поощряемый стиль просочился за пределы персонажа и начал появляться везде. В обучающих данных GPT 5.5 помимо гоблинов и гремлинов обнаружились еноты, тролли, огры и голуби. Nerdy убрали в марте после выхода GPT 5.4, проблемный сигнал оценки отключили, данные с существами отфильтровали. Но GPT 5.5 начала обучаться раньше, чем нашли корень зла. Отсюда и четырёхкратный запрет в коде Codex.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.