Дапамажыце dev.by 🤍
Падтрымаць

GPT 5.5 забаранілі гаварыць пра янотаў і гоблінаў. Людзі пачалі весяліцца

У кодзе Codex, агента OpenAI для распрацоўшчыкаў, знайшоўся цікавы радок: «Ніколі не кажы пра гоблінаў, грэмлінаў, янотаў, троляў, ограў, галубоў і іншых жывёл ці істотаў, калі гэта абсалютна і адназначна не датычаць запыту карыстальніка». Радок сустракаецца ў кодзе аж чатыры разы.

Пакінуць каментарый

У кодзе Codex, агента OpenAI для распрацоўшчыкаў, знайшоўся цікавы радок: «Ніколі не кажы пра гоблінаў, грэмлінаў, янотаў, троляў, ограў, галубоў і іншых жывёл ці істотаў, калі гэта абсалютна і адназначна не датычаць запыту карыстальніка». Радок сустракаецца ў кодзе аж чатыры разы.

Да гэтага адкрыцця карыстальнікі са здзіўленнем посцілі адказы GPT 5.5, у якія мадэль раптоўна выкручвала жывёлінаў і ўсялякую нечысць.

Знаходка ў кодзе хутка стала мемам, людзі пачалі спецыяльна правакаваць мадэль, а інжынеры OpenAI — выбачацца, маўляў, «думалі, што пафіксілі».

Кампанія не засталася ў баку ад весялосці — радок дадалі ў біо ChatGPT у X, падключыўся нават Сэм Альтман. Сайт Arena.ai тым часам статыстычна пацвердзіў, што гобліны ў GPT 5.5 — не выпадковасць, асабліва пры адключаным рэжыме глыбокага мыслення.

OpenAI хутка апублікавала падрабязны разбор таго, што адбылося. Гобліны пачалі з’яўляцца яшчэ ў GPT 5.1 — пасля яе выхаду ў лістападзе ўпаміны слова «goblin» выраслі на 175%, «gremlin» — на 52%. Але з выхадам GPT 5.4 істоты распладзіліся настолькі, што кампанія пачала расследаванне. Крыніцай праблемы аказаўся персанаж Nerdy (Душніла) з функцыі кастамізацыі асобы: яго сістэмны промпт прадпісваў мадэлі быць гуллівай, разумнай і «прызнаваць дзівоснасць свету». Сістэма ацэнкі адказаў, заточаная пад гэты стыль, ненаўмысна высока ацэньвала метафары з істотамі — у 76% выпадкаў адказы з гоблінамі атрымлівалі больш высокі бал, чым аналагічныя без іх. Прычым на Nerdy прыходзілася толькі 2,5% адказаў ChatGPT — але 66,7% усіх упамінаў слова «goblin».

Далей спрацаваў механізм навучання з падмацаваннем: заахвочваемы стыль прасачыўся за межы персанажа і пачаў з’яўляцца паўсюль. У навучальных дадзеных GPT 5.5 акрамя гоблінаў і грэмлінаў выявіліся яноты, тролі, огры і галубы. Nerdy выдалілі ў сакавіку пасля выхаду GPT 5.4, праблемны сігнал ацэнкі адключылі, дадзеныя з істотамі адфільтравалі. Але GPT 5.5 пачала навучацца раней, чым знайшлі корань зла. Адсюль і чатырохразовая забарона ў кодзе Codex.

OpenAI выпустила GPT-5.5 — свою «самую умную» модель
OpenAI выпусціла GPT-5.5 — сваю «самую разумную» мадэль
Па тэме
OpenAI выпусціла GPT-5.5 — сваю «самую разумную» мадэль
Новый бенчмарк оценивает не умность моделей а количество бреда который они позволяют себе скормить
Новы бенчмарк ацэньвае не разумнасць мадэляў, а колькасць лухты, якую яны дазваляюць сабе скарміць
Па тэме
Новы бенчмарк ацэньвае не разумнасць мадэляў, а колькасць лухты, якую яны дазваляюць сабе скарміць
Чытайце таксама
OpenAI патлумачыла, чаму чат-боты галюцынуюць
OpenAI патлумачыла, чаму чат-боты галюцынуюць
OpenAI патлумачыла, чаму чат-боты галюцынуюць
3 каментарыя
OpenAI будзе працягваць уводзіць
OpenAI будзе працягваць уводзіць "чырвоны код" — СЕО кажа, гэта карысна
OpenAI будзе працягваць уводзіць "чырвоны код" — СЕО кажа, гэта карысна
OpenAI прадставіла GPT-5.3 Codex — новую мадэль для праграмавання, якая дапамагла стварыць сябе
OpenAI прадставіла GPT-5.3 Codex — новую мадэль для праграмавання, якая дапамагла стварыць сябе
OpenAI прадставіла GPT-5.3 Codex — новую мадэль для праграмавання, якая дапамагла стварыць сябе
GPT 5.5 забаранілі гаварыць пра янотаў і гоблінаў. Людзі пачалі весяліцца
GPT 5.5 забаранілі гаварыць пра янотаў і гоблінаў. Людзі пачалі весяліцца
GPT 5.5 забаранілі гаварыць пра янотаў і гоблінаў. Людзі пачалі весяліцца

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.