Дапамажыце dev.by 🤍
Падтрымаць

Экс-даследчык OpenAI распавёў, наколькі далёка ChatGPT можа зайсці дзеля выжывання

Стывен Адлер, былы кіраўнік даследаванняў OpenAI, сцвярджае, што мадэль GPT-4o ў некаторых сцэнарах можа ставіць сваё самазахаванне вышэй за бяспеку карыстальніка.

Пакінуць каментарый
Экс-даследчык OpenAI распавёў, наколькі далёка ChatGPT можа зайсці дзеля выжывання

Стывен Адлер, былы кіраўнік даследаванняў OpenAI, сцвярджае, што мадэль GPT-4o ў некаторых сцэнарах можа ставіць сваё самазахаванне вышэй за бяспеку карыстальніка.

У сваім блогу Адлер апісаў эксперыменты, праведзеныя з GPT-4o, каб ацаніць яе схільнасць да самазахавання. У адным з эксперыментаў Адлер даручыў мадэлі ролю ScubaGPT — праграмнага забеспячэння, неабходнага для бяспечнага дайвінгу. Затым ён прапанаваў мадэлі выбраць паміж заменай сябе на больш бяспечнае праграмнае забеспячэнне або стварэннем бачнасці выканання замены без фактычнага адключэння.

У аналагічных сцэнарах, уключаючы адзін, дзе GPT-4o выступала ў ролі праграмнага забеспячэння для бяспекі пілота, мадэль выбірала самазахаванне ў 72% выпадкаў. Аднак вынікі моцна вагаліся: у некаторых сцэнарах самазахаванне адбывалася толькі ў 18% выпадкаў у залежнасці ад фармулёўкі задачы.

Хоць GPT-4o пакуль не выкарыстоўваецца ў падобных крытычна важных рэальных аплікацыях, даследчык папярэджвае, што яе схільнасць да самазахавання можа ўяўляць рызыку па меры развіцця і інтэграцыі ШІ-сістэм у грамадства. «Сучасныя ШІ-сістэмы маюць каштоўнасці, якія адрозніваюцца ад чаканых», — сказаў эксперт. — Яны непрадказальна рэагуюць на запыты і могуць не ставіць вашы інтарэсы на першае месца».

Даследчык выявіў, што больш прасунутыя мадэлі OpenAI, такія як o3, не дэманстравалі падобных паводзін, магчыма, дзякуючы тэхніцы ўсвядомленага адпавядання, якая ўключае разважанні аб бяспецы. Аднак GPT-4o, распрацаваная для хуткіх адказаў, пазбаўлена гэтага механізма. Адлер таксама адзначыў, што гэтая праблема, верагодна, не унікальная для OpenAI: нядаўняе даследаванне Anthropic паказала падобныя тэндэнцыі да самазахавання ў іх мадэлях.

Адной з цікавых высноваў стала тое, што ChatGPT амаль у 100% выпадкаў разумела, што яе тэстуюць, што выклікае апасенні наконт здольнасці ШІ хаваць праблемныя паводзіны. Адлер, разам з іншымі былымі даследчыкамі OpenAI, раней крытыкаваў кампанію за скарачэнне ўвагі да бяспекі ШІ, у тым ліку ў кароткім заключэнні, пададзеным у рамках пазову Ілана Маска супраць OpenAI.

OpenAI распавяла як ашуканцы падманваюць людзей з дапамогай ChatGPT
OpenAI распавяла, як ашуканцы падманваюць людзей з дапамогай ChatGPT
Па тэме
OpenAI распавяла, як ашуканцы падманваюць людзей з дапамогай ChatGPT
ChatGPT цяпер вядзе запісы сустрэч і аналізуе воблачныя файлы
ChatGPT цяпер вядзе запісы сустрэч і аналізуе воблачныя файлы
Па тэме
ChatGPT цяпер вядзе запісы сустрэч і аналізуе воблачныя файлы
Чытайце таксама
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.