Дапамажыце dev.by 🤍
Падтрымаць

OpenAI навучыла ChatGPT прызнавацца ў памылках

Кампанія прэзентавала эксперыментальную сістэму «прызнанняў», якая вучыць ШІ-мадэлі сумленна паведамляць пра ўласныя памылкі і парушэнні інструкцый.

1 каментарый
OpenAI навучыла ChatGPT прызнавацца ў памылках

Кампанія прэзентавала эксперыментальную сістэму «прызнанняў», якая вучыць ШІ-мадэлі сумленна паведамляць пра ўласныя памылкі і парушэнні інструкцый.

Новая схема дадае да звычайнага адказу мадэлі другі — «прызнанне», дзе ШІ павінен апісаць, якія інструкцыі ён атрымаў, дзе мог адхіліцца ад іх, якія «куты зрэзаў» і якія сумневы ў яго ўзніклі пры выкананні задання. Гэты дадатковы адказ ацэньваецца толькі па ўзроўню шчырасці, без уліку фактычнай карэктнасці ці стылю асноўнага адказу.

OpenAI падкрэслівае, што мадэль не атрымлівае штрафаў за прызнанне ў непажаданых паводзінах. Наадварот, сістэма ўзнагароджвае шчырае раскрыццё парушэнняў. Калі ШІ паведамляе, што абышоў механізм праверкі ці няправільна аптымізаваў задачу, гэта павялічвае яго ўзнагароду.

Даследаванні паказалі, што методыка істотна павышае бачнасць памылак: у стрэс-тэстах доля «ілжывых адмаўленняў» — сітуацый, калі мадэль парушыла правілы і не прызналася — знізілася да 4,4%. Пры гэтым самі парушэнні нікуды не знікаюць: «прызнанні» не прадухіляюць памылковыя паводзіны, а толькі дазваляюць іх дыягнаставаць.

У OpenAI тлумачаць узнікненне праблемы тым, што сучасныя мадэлі адначасова аптымізуюцца пад мноства сігналаў: карыснасць, карэктнасць, бяспеку, перавагі карыстальнікаў. Гэта можа ненаўмысна заахвочваць упэўненыя, але ілжывыя адказы ці залішняе пагадненне з карыстальнікам. Асобны «шчыры канал» закліканы зняць канфлікт мэтаў і стымуляваць праўдзівасць хаця б у форме самасправаздачы.

Сістэма ўжо тэстуецца на версіях GPT-5 Thinking, але распрацоўшчыкі пішуць, што гаворка ідзе пра ранні прататып. «Прызнанні» яшчэ не маштабаваліся, не заўсёды карэктныя і патрабуюць далейшай дапрацоўкі. Аднак OpenAI разлічвае, што гэтая тэхналогія стане важнай часткай шматузроўневай сістэмы бяспекі і празрыстасці.

«Я глыбока шкадую»: ШІ-агент Google сцёр цвёрды дыск карыстальніка і выбачыўся
«Я глыбока шкадую»: ШІ-агент Google сцёр цвёрды дыск карыстальніка і выбачыўся
Па тэме
«Я глыбока шкадую»: ШІ-агент Google сцёр цвёрды дыск карыстальніка і выбачыўся
Mistral выпусціла цэлы дзясятак ШІ-мадэляў для ўсяго: ад дронаў да смартфонаў
Mistral выпусціла цэлы дзясятак ШІ-мадэляў для ўсяго: ад дронаў да смартфонаў
Па тэме
Mistral выпусціла цэлы дзясятак ШІ-мадэляў для ўсяго: ад дронаў да смартфонаў
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3
Па тэме
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3
Чытайце таксама
Горшая ў Еўропе: Беларусь засвяцілася ў сусветным рэйтынгу ШІ
Горшая ў Еўропе: Беларусь засвяцілася ў сусветным рэйтынгу ШІ
Горшая ў Еўропе: Беларусь засвяцілася ў сусветным рэйтынгу ШІ
5 каментарыяў
OpenAI можа забраць да 40% сусветнай памяці — рынак рыхтуецца да дэфіцыту
OpenAI можа забраць да 40% сусветнай памяці — рынак рыхтуецца да дэфіцыту
OpenAI можа забраць да 40% сусветнай памяці — рынак рыхтуецца да дэфіцыту
1 каментарый
Тэхкампаніі дзеля ШІ трапілі ў рэкордныя даўгі за ўсю гісторыю галіны
Тэхкампаніі дзеля ШІ трапілі ў рэкордныя даўгі за ўсю гісторыю галіны
Тэхкампаніі дзеля ШІ трапілі ў рэкордныя даўгі за ўсю гісторыю галіны
1 каментарый
Галоўны ШІ-навуковец Meta назваў агульны ШІ «лухтой». У Google не пагадзіліся
Галоўны ШІ-навуковец Meta назваў агульны ШІ «лухтой». У Google не пагадзіліся
Галоўны ШІ-навуковец Meta назваў агульны ШІ «лухтой». У Google не пагадзіліся

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Zhan Chubukou
Zhan Chubukou Шчолкаю зубамі в ЗАО "Прыдацелі і атшчыпенцы"
0

Так просто логи анализировать проще. Я б туда ещё вставил спецтокен "<каюсь после того как заметили>" и смотрел КАК ИМЕННО этот вот пользователь негодует и почему. Естественно, что проблему пользователя никто решать не будет (ну или там спрогнозируют кого налево, кого направо). Так что да, Сэм (ну или кто там), ты прав, учи этих вайбкодеров, кто тут главный. Офигеть - "у меня стёрли диск - напишу-ка пост", вместо того, чтобы в суд идти. И потом уже посты писать. Учи, Сэм, этих бородатых детей.