Дапамажыце dev.by 🤍
Падтрымаць

Экс-даследчык OpenAI распавёў, наколькі далёка ChatGPT можа зайсці дзеля выжывання

Стывен Адлер, былы кіраўнік даследаванняў OpenAI, сцвярджае, што мадэль GPT-4o ў некаторых сцэнарах можа ставіць сваё самазахаванне вышэй за бяспеку карыстальніка.

Пакінуць каментарый
Экс-даследчык OpenAI распавёў, наколькі далёка ChatGPT можа зайсці дзеля выжывання

Стывен Адлер, былы кіраўнік даследаванняў OpenAI, сцвярджае, што мадэль GPT-4o ў некаторых сцэнарах можа ставіць сваё самазахаванне вышэй за бяспеку карыстальніка.

У сваім блогу Адлер апісаў эксперыменты, праведзеныя з GPT-4o, каб ацаніць яе схільнасць да самазахавання. У адным з эксперыментаў Адлер даручыў мадэлі ролю ScubaGPT — праграмнага забеспячэння, неабходнага для бяспечнага дайвінгу. Затым ён прапанаваў мадэлі выбраць паміж заменай сябе на больш бяспечнае праграмнае забеспячэнне або стварэннем бачнасці выканання замены без фактычнага адключэння.

У аналагічных сцэнарах, уключаючы адзін, дзе GPT-4o выступала ў ролі праграмнага забеспячэння для бяспекі пілота, мадэль выбірала самазахаванне ў 72% выпадкаў. Аднак вынікі моцна вагаліся: у некаторых сцэнарах самазахаванне адбывалася толькі ў 18% выпадкаў у залежнасці ад фармулёўкі задачы.

Хоць GPT-4o пакуль не выкарыстоўваецца ў падобных крытычна важных рэальных аплікацыях, даследчык папярэджвае, што яе схільнасць да самазахавання можа ўяўляць рызыку па меры развіцця і інтэграцыі ШІ-сістэм у грамадства. «Сучасныя ШІ-сістэмы маюць каштоўнасці, якія адрозніваюцца ад чаканых», — сказаў эксперт. — Яны непрадказальна рэагуюць на запыты і могуць не ставіць вашы інтарэсы на першае месца».

Даследчык выявіў, што больш прасунутыя мадэлі OpenAI, такія як o3, не дэманстравалі падобных паводзін, магчыма, дзякуючы тэхніцы ўсвядомленага адпавядання, якая ўключае разважанні аб бяспецы. Аднак GPT-4o, распрацаваная для хуткіх адказаў, пазбаўлена гэтага механізма. Адлер таксама адзначыў, што гэтая праблема, верагодна, не унікальная для OpenAI: нядаўняе даследаванне Anthropic паказала падобныя тэндэнцыі да самазахавання ў іх мадэлях.

Адной з цікавых высноваў стала тое, што ChatGPT амаль у 100% выпадкаў разумела, што яе тэстуюць, што выклікае апасенні наконт здольнасці ШІ хаваць праблемныя паводзіны. Адлер, разам з іншымі былымі даследчыкамі OpenAI, раней крытыкаваў кампанію за скарачэнне ўвагі да бяспекі ШІ, у тым ліку ў кароткім заключэнні, пададзеным у рамках пазову Ілана Маска супраць OpenAI.

OpenAI распавяла як ашуканцы падманваюць людзей з дапамогай ChatGPT
OpenAI распавяла, як ашуканцы падманваюць людзей з дапамогай ChatGPT
Па тэме
OpenAI распавяла, як ашуканцы падманваюць людзей з дапамогай ChatGPT
ChatGPT цяпер вядзе запісы сустрэч і аналізуе воблачныя файлы
ChatGPT цяпер вядзе запісы сустрэч і аналізуе воблачныя файлы
Па тэме
ChatGPT цяпер вядзе запісы сустрэч і аналізуе воблачныя файлы
Чытайце таксама
Тры гады з ШІ: бізнес дагэтуль не разумее, як атрымаць з яго карысць
Тры гады з ШІ: бізнес дагэтуль не разумее, як атрымаць з яго карысць
Тры гады з ШІ: бізнес дагэтуль не разумее, як атрымаць з яго карысць
Anthropic апытала сваіх праграмістаў, як ШІ змяняе іх працу
Anthropic апытала сваіх праграмістаў, як ШІ змяняе іх працу
Anthropic апытала сваіх праграмістаў, як ШІ змяняе іх працу
1 каментарый
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3
OpenAI абвясціла «код чырвоны» з-за канкурэнцыі з Google Gemini 3
ШІ-агенты здолелі «ўзламаць» смарт-кантракты на $550 млн
ШІ-агенты здолелі «ўзламаць» смарт-кантракты на $550 млн
ШІ-агенты здолелі «ўзламаць» смарт-кантракты на $550 млн

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.