Николай Чикишев world 4 снежня 2025, 14:08

OpenAI навучыла ChatGPT прызнавацца ў памылках

Кампанія прэзентавала эксперыментальную сістэму «прызнанняў», якая вучыць ШІ-мадэлі сумленна паведамляць пра ўласныя памылкі і парушэнні інструкцый.

1 каментарый

OpenAI навучыла ChatGPT прызнавацца ў памылках

Кампанія прэзентавала эксперыментальную сістэму «прызнанняў», якая вучыць ШІ-мадэлі сумленна паведамляць пра ўласныя памылкі і парушэнні інструкцый.

Новая схема дадае да звычайнага адказу мадэлі другі — «прызнанне», дзе ШІ павінен апісаць, якія інструкцыі ён атрымаў, дзе мог адхіліцца ад іх, якія «куты зрэзаў» і якія сумневы ў яго ўзніклі пры выкананні задання. Гэты дадатковы адказ ацэньваецца толькі па ўзроўню шчырасці, без уліку фактычнай карэктнасці ці стылю асноўнага адказу.

OpenAI падкрэслівае, што мадэль не атрымлівае штрафаў за прызнанне ў непажаданых паводзінах. Наадварот, сістэма ўзнагароджвае шчырае раскрыццё парушэнняў. Калі ШІ паведамляе, што абышоў механізм праверкі ці няправільна аптымізаваў задачу, гэта павялічвае яго ўзнагароду.

Даследаванні паказалі, што методыка істотна павышае бачнасць памылак: у стрэс-тэстах доля «ілжывых адмаўленняў» — сітуацый, калі мадэль парушыла правілы і не прызналася — знізілася да 4,4%. Пры гэтым самі парушэнні нікуды не знікаюць: «прызнанні» не прадухіляюць памылковыя паводзіны, а толькі дазваляюць іх дыягнаставаць.

У OpenAI тлумачаць узнікненне праблемы тым, што сучасныя мадэлі адначасова аптымізуюцца пад мноства сігналаў: карыснасць, карэктнасць, бяспеку, перавагі карыстальнікаў. Гэта можа ненаўмысна заахвочваць упэўненыя, але ілжывыя адказы ці залішняе пагадненне з карыстальнікам. Асобны «шчыры канал» закліканы зняць канфлікт мэтаў і стымуляваць праўдзівасць хаця б у форме самасправаздачы.

Сістэма ўжо тэстуецца на версіях GPT-5 Thinking, але распрацоўшчыкі пішуць, што гаворка ідзе пра ранні прататып. «Прызнанні» яшчэ не маштабаваліся, не заўсёды карэктныя і патрабуюць далейшай дапрацоўкі. Аднак OpenAI разлічвае, што гэтая тэхналогія стане важнай часткай шматузроўневай сістэмы бяспекі і празрыстасці.

«Я глыбока шкадую»: ШІ-агент Google сцёр цвёрды дыск карыстальніка і выбачыўся

Mistral выпусціла цэлы дзясятак ШІ-мадэляў для ўсяго: ад дронаў да смартфонаў

OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3

1 каментарый

Тэкст: Николай Чикишев Крыніца: OpenAI Тэгі: chatgpt, openai, искусственный интеллект, чат-боты

Знайшлі памылку ў тэксце-вылучыце яе і націсніце Ctrl+Enter. Знайшлі памылку ў тэксце-вылучыце яе і націсніце кнопку «Паведаміць пра памылку».

Сайт компании Вакансии

Размяшчэнне рэкламы

OpenAI абнавіла ChatGPT да GPT-5.1 — мадэль стала дакладнейшай і больш чалавечнай

1 каментарый

Кіраўнік OpenAI прызнаўся ў адной недарэчнай памылцы карыстальнікам ChatGPT

OpenAI навучыла ChatGPT прызнавацца ў памылках

1 каментарый

OpenAI абнавіла ChatGPT: адказы больш дакладныя і менш крынжовыя

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Zhan Chubukou Шчолкаю зубамі в ЗАО "Прыдацелі і атшчыпенцы"

0

Так просто логи анализировать проще. Я б туда ещё вставил спецтокен "<каюсь после того как заметили>" и смотрел КАК ИМЕННО этот вот пользователь негодует и почему. Естественно, что проблему пользователя никто решать не будет (ну или там спрогнозируют кого налево, кого направо). Так что да, Сэм (ну или кто там), ты прав, учи этих вайбкодеров, кто тут главный. Офигеть - "у меня стёрли диск - напишу-ка пост", вместо того, чтобы в суд идти. И потом уже посты писать. Учи, Сэм, этих бородатых детей.

Увайдзіце, каб пакінуць каментарый