OpenAI навучыла ChatGPT прызнавацца ў памылках
Кампанія прэзентавала эксперыментальную сістэму «прызнанняў», якая вучыць ШІ-мадэлі сумленна паведамляць пра ўласныя памылкі і парушэнні інструкцый.
Кампанія прэзентавала эксперыментальную сістэму «прызнанняў», якая вучыць ШІ-мадэлі сумленна паведамляць пра ўласныя памылкі і парушэнні інструкцый.
Кампанія прэзентавала эксперыментальную сістэму «прызнанняў», якая вучыць ШІ-мадэлі сумленна паведамляць пра ўласныя памылкі і парушэнні інструкцый.
Новая схема дадае да звычайнага адказу мадэлі другі — «прызнанне», дзе ШІ павінен апісаць, якія інструкцыі ён атрымаў, дзе мог адхіліцца ад іх, якія «куты зрэзаў» і якія сумневы ў яго ўзніклі пры выкананні задання. Гэты дадатковы адказ ацэньваецца толькі па ўзроўню шчырасці, без уліку фактычнай карэктнасці ці стылю асноўнага адказу.
OpenAI падкрэслівае, што мадэль не атрымлівае штрафаў за прызнанне ў непажаданых паводзінах. Наадварот, сістэма ўзнагароджвае шчырае раскрыццё парушэнняў. Калі ШІ паведамляе, што абышоў механізм праверкі ці няправільна аптымізаваў задачу, гэта павялічвае яго ўзнагароду.
Даследаванні паказалі, што методыка істотна павышае бачнасць памылак: у стрэс-тэстах доля «ілжывых адмаўленняў» — сітуацый, калі мадэль парушыла правілы і не прызналася — знізілася да 4,4%. Пры гэтым самі парушэнні нікуды не знікаюць: «прызнанні» не прадухіляюць памылковыя паводзіны, а толькі дазваляюць іх дыягнаставаць.
У OpenAI тлумачаць узнікненне праблемы тым, што сучасныя мадэлі адначасова аптымізуюцца пад мноства сігналаў: карыснасць, карэктнасць, бяспеку, перавагі карыстальнікаў. Гэта можа ненаўмысна заахвочваць упэўненыя, але ілжывыя адказы ці залішняе пагадненне з карыстальнікам. Асобны «шчыры канал» закліканы зняць канфлікт мэтаў і стымуляваць праўдзівасць хаця б у форме самасправаздачы.
Сістэма ўжо тэстуецца на версіях GPT-5 Thinking, але распрацоўшчыкі пішуць, што гаворка ідзе пра ранні прататып. «Прызнанні» яшчэ не маштабаваліся, не заўсёды карэктныя і патрабуюць далейшай дапрацоўкі. Аднак OpenAI разлічвае, што гэтая тэхналогія стане важнай часткай шматузроўневай сістэмы бяспекі і празрыстасці.



Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
Так просто логи анализировать проще. Я б туда ещё вставил спецтокен "<каюсь после того как заметили>" и смотрел КАК ИМЕННО этот вот пользователь негодует и почему. Естественно, что проблему пользователя никто решать не будет (ну или там спрогнозируют кого налево, кого направо). Так что да, Сэм (ну или кто там), ты прав, учи этих вайбкодеров, кто тут главный. Офигеть - "у меня стёрли диск - напишу-ка пост", вместо того, чтобы в суд идти. И потом уже посты писать. Учи, Сэм, этих бородатых детей.