Дапамажыце dev.by 🤍
Падтрымаць

OpenAI навучыла ChatGPT прызнавацца ў памылках

Кампанія прэзентавала эксперыментальную сістэму «прызнанняў», якая вучыць ШІ-мадэлі сумленна паведамляць пра ўласныя памылкі і парушэнні інструкцый.

Пакінуць каментарый
OpenAI навучыла ChatGPT прызнавацца ў памылках

Кампанія прэзентавала эксперыментальную сістэму «прызнанняў», якая вучыць ШІ-мадэлі сумленна паведамляць пра ўласныя памылкі і парушэнні інструкцый.

Новая схема дадае да звычайнага адказу мадэлі другі — «прызнанне», дзе ШІ павінен апісаць, якія інструкцыі ён атрымаў, дзе мог адхіліцца ад іх, якія «куты зрэзаў» і якія сумневы ў яго ўзніклі пры выкананні задання. Гэты дадатковы адказ ацэньваецца толькі па ўзроўню шчырасці, без уліку фактычнай карэктнасці ці стылю асноўнага адказу.

OpenAI падкрэслівае, што мадэль не атрымлівае штрафаў за прызнанне ў непажаданых паводзінах. Наадварот, сістэма ўзнагароджвае шчырае раскрыццё парушэнняў. Калі ШІ паведамляе, што абышоў механізм праверкі ці няправільна аптымізаваў задачу, гэта павялічвае яго ўзнагароду.

Даследаванні паказалі, што методыка істотна павышае бачнасць памылак: у стрэс-тэстах доля «ілжывых адмаўленняў» — сітуацый, калі мадэль парушыла правілы і не прызналася — знізілася да 4,4%. Пры гэтым самі парушэнні нікуды не знікаюць: «прызнанні» не прадухіляюць памылковыя паводзіны, а толькі дазваляюць іх дыягнаставаць.

У OpenAI тлумачаць узнікненне праблемы тым, што сучасныя мадэлі адначасова аптымізуюцца пад мноства сігналаў: карыснасць, карэктнасць, бяспеку, перавагі карыстальнікаў. Гэта можа ненаўмысна заахвочваць упэўненыя, але ілжывыя адказы ці залішняе пагадненне з карыстальнікам. Асобны «шчыры канал» закліканы зняць канфлікт мэтаў і стымуляваць праўдзівасць хаця б у форме самасправаздачы.

Сістэма ўжо тэстуецца на версіях GPT-5 Thinking, але распрацоўшчыкі пішуць, што гаворка ідзе пра ранні прататып. «Прызнанні» яшчэ не маштабаваліся, не заўсёды карэктныя і патрабуюць далейшай дапрацоўкі. Аднак OpenAI разлічвае, што гэтая тэхналогія стане важнай часткай шматузроўневай сістэмы бяспекі і празрыстасці.

«Я глыбока шкадую»: ШІ-агент Google сцёр цвёрды дыск карыстальніка і выбачыўся
«Я глыбока шкадую»: ШІ-агент Google сцёр цвёрды дыск карыстальніка і выбачыўся
Па тэме
«Я глыбока шкадую»: ШІ-агент Google сцёр цвёрды дыск карыстальніка і выбачыўся
Mistral выпусціла цэлы дзясятак ШІ-мадэляў для ўсяго: ад дронаў да смартфонаў
Mistral выпусціла цэлы дзясятак ШІ-мадэляў для ўсяго: ад дронаў да смартфонаў
Па тэме
Mistral выпусціла цэлы дзясятак ШІ-мадэляў для ўсяго: ад дронаў да смартфонаў
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3
Па тэме
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3
Чытайце таксама
«Я глыбока шкадую»: ШІ-агент Google сцёр цвёрды дыск карыстальніка і выбачыўся
«Я глыбока шкадую»: ШІ-агент Google сцёр цвёрды дыск карыстальніка і выбачыўся
«Я глыбока шкадую»: ШІ-агент Google сцёр цвёрды дыск карыстальніка і выбачыўся
5 каментарыяў
Mistral выпусціла цэлы дзясятак ШІ-мадэляў для ўсяго: ад дронаў да смартфонаў
Mistral выпусціла цэлы дзясятак ШІ-мадэляў для ўсяго: ад дронаў да смартфонаў
Mistral выпусціла цэлы дзясятак ШІ-мадэляў для ўсяго: ад дронаў да смартфонаў
Тры гады з ШІ: бізнес дагэтуль не разумее, як атрымаць з яго карысць
Тры гады з ШІ: бізнес дагэтуль не разумее, як атрымаць з яго карысць
Тры гады з ШІ: бізнес дагэтуль не разумее, як атрымаць з яго карысць
Anthropic апытала сваіх праграмістаў, як ШІ змяняе іх працу
Anthropic апытала сваіх праграмістаў, як ШІ змяняе іх працу
Anthropic апытала сваіх праграмістаў, як ШІ змяняе іх працу
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.