OpenAI навучыла ChatGPT прызнавацца ў памылках

Кампанія прэзентавала эксперыментальную сістэму «прызнанняў», якая вучыць ШІ-мадэлі сумленна паведамляць пра ўласныя памылкі і парушэнні інструкцый.

Пакінуць каментарый

Новая схема дадае да звычайнага адказу мадэлі другі — «прызнанне», дзе ШІ павінен апісаць, якія інструкцыі ён атрымаў, дзе мог адхіліцца ад іх, якія «куты зрэзаў» і якія сумневы ў яго ўзніклі пры выкананні задання. Гэты дадатковы адказ ацэньваецца толькі па ўзроўню шчырасці, без уліку фактычнай карэктнасці ці стылю асноўнага адказу.

OpenAI падкрэслівае, што мадэль не атрымлівае штрафаў за прызнанне ў непажаданых паводзінах. Наадварот, сістэма ўзнагароджвае шчырае раскрыццё парушэнняў. Калі ШІ паведамляе, што абышоў механізм праверкі ці няправільна аптымізаваў задачу, гэта павялічвае яго ўзнагароду.

Даследаванні паказалі, што методыка істотна павышае бачнасць памылак: у стрэс-тэстах доля «ілжывых адмаўленняў» — сітуацый, калі мадэль парушыла правілы і не прызналася — знізілася да 4,4%. Пры гэтым самі парушэнні нікуды не знікаюць: «прызнанні» не прадухіляюць памылковыя паводзіны, а толькі дазваляюць іх дыягнаставаць.

У OpenAI тлумачаць узнікненне праблемы тым, што сучасныя мадэлі адначасова аптымізуюцца пад мноства сігналаў: карыснасць, карэктнасць, бяспеку, перавагі карыстальнікаў. Гэта можа ненаўмысна заахвочваць упэўненыя, але ілжывыя адказы ці залішняе пагадненне з карыстальнікам. Асобны «шчыры канал» закліканы зняць канфлікт мэтаў і стымуляваць праўдзівасць хаця б у форме самасправаздачы.

Сістэма ўжо тэстуецца на версіях GPT-5 Thinking, але распрацоўшчыкі пішуць, што гаворка ідзе пра ранні прататып. «Прызнанні» яшчэ не маштабаваліся, не заўсёды карэктныя і патрабуюць далейшай дапрацоўкі. Аднак OpenAI разлічвае, што гэтая тэхналогія стане важнай часткай шматузроўневай сістэмы бяспекі і празрыстасці.

«Я глыбока шкадую»: ШІ-агент Google сцёр цвёрды дыск карыстальніка і выбачыўся
Па тэме
«Я глыбока шкадую»: ШІ-агент Google сцёр цвёрды дыск карыстальніка і выбачыўся
Mistral выпусціла цэлы дзясятак ШІ-мадэляў для ўсяго: ад дронаў да смартфонаў
Па тэме
Mistral выпусціла цэлы дзясятак ШІ-мадэляў для ўсяго: ад дронаў да смартфонаў
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3
Па тэме
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3

Читать на dev.by