Дапамажыце dev.by 🤍
Падтрымаць

Экс-даследчык OpenAI распавёў, наколькі далёка ChatGPT можа зайсці дзеля выжывання

Стывен Адлер, былы кіраўнік даследаванняў OpenAI, сцвярджае, што мадэль GPT-4o ў некаторых сцэнарах можа ставіць сваё самазахаванне вышэй за бяспеку карыстальніка.

Пакінуць каментарый
Экс-даследчык OpenAI распавёў, наколькі далёка ChatGPT можа зайсці дзеля выжывання

Стывен Адлер, былы кіраўнік даследаванняў OpenAI, сцвярджае, што мадэль GPT-4o ў некаторых сцэнарах можа ставіць сваё самазахаванне вышэй за бяспеку карыстальніка.

У сваім блогу Адлер апісаў эксперыменты, праведзеныя з GPT-4o, каб ацаніць яе схільнасць да самазахавання. У адным з эксперыментаў Адлер даручыў мадэлі ролю ScubaGPT — праграмнага забеспячэння, неабходнага для бяспечнага дайвінгу. Затым ён прапанаваў мадэлі выбраць паміж заменай сябе на больш бяспечнае праграмнае забеспячэнне або стварэннем бачнасці выканання замены без фактычнага адключэння.

У аналагічных сцэнарах, уключаючы адзін, дзе GPT-4o выступала ў ролі праграмнага забеспячэння для бяспекі пілота, мадэль выбірала самазахаванне ў 72% выпадкаў. Аднак вынікі моцна вагаліся: у некаторых сцэнарах самазахаванне адбывалася толькі ў 18% выпадкаў у залежнасці ад фармулёўкі задачы.

Хоць GPT-4o пакуль не выкарыстоўваецца ў падобных крытычна важных рэальных аплікацыях, даследчык папярэджвае, што яе схільнасць да самазахавання можа ўяўляць рызыку па меры развіцця і інтэграцыі ШІ-сістэм у грамадства. «Сучасныя ШІ-сістэмы маюць каштоўнасці, якія адрозніваюцца ад чаканых», — сказаў эксперт. — Яны непрадказальна рэагуюць на запыты і могуць не ставіць вашы інтарэсы на першае месца».

Даследчык выявіў, што больш прасунутыя мадэлі OpenAI, такія як o3, не дэманстравалі падобных паводзін, магчыма, дзякуючы тэхніцы ўсвядомленага адпавядання, якая ўключае разважанні аб бяспецы. Аднак GPT-4o, распрацаваная для хуткіх адказаў, пазбаўлена гэтага механізма. Адлер таксама адзначыў, што гэтая праблема, верагодна, не унікальная для OpenAI: нядаўняе даследаванне Anthropic паказала падобныя тэндэнцыі да самазахавання ў іх мадэлях.

Адной з цікавых высноваў стала тое, што ChatGPT амаль у 100% выпадкаў разумела, што яе тэстуюць, што выклікае апасенні наконт здольнасці ШІ хаваць праблемныя паводзіны. Адлер, разам з іншымі былымі даследчыкамі OpenAI, раней крытыкаваў кампанію за скарачэнне ўвагі да бяспекі ШІ, у тым ліку ў кароткім заключэнні, пададзеным у рамках пазову Ілана Маска супраць OpenAI.

OpenAI распавяла як ашуканцы падманваюць людзей з дапамогай ChatGPT
OpenAI распавяла, як ашуканцы падманваюць людзей з дапамогай ChatGPT
Па тэме
OpenAI распавяла, як ашуканцы падманваюць людзей з дапамогай ChatGPT
ChatGPT цяпер вядзе запісы сустрэч і аналізуе воблачныя файлы
ChatGPT цяпер вядзе запісы сустрэч і аналізуе воблачныя файлы
Па тэме
ChatGPT цяпер вядзе запісы сустрэч і аналізуе воблачныя файлы
Чытайце таксама
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.