Николай Чикишев world 12 чэрвеня 2025, 11:54

Экс-даследчык OpenAI распавёў, наколькі далёка ChatGPT можа зайсці дзеля выжывання

Стывен Адлер, былы кіраўнік даследаванняў OpenAI, сцвярджае, што мадэль GPT-4o ў некаторых сцэнарах можа ставіць сваё самазахаванне вышэй за бяспеку карыстальніка.

Пакінуць каментарый

Экс-даследчык OpenAI распавёў, наколькі далёка ChatGPT можа зайсці дзеля выжывання

Стывен Адлер, былы кіраўнік даследаванняў OpenAI, сцвярджае, што мадэль GPT-4o ў некаторых сцэнарах можа ставіць сваё самазахаванне вышэй за бяспеку карыстальніка.

У сваім блогу Адлер апісаў эксперыменты, праведзеныя з GPT-4o, каб ацаніць яе схільнасць да самазахавання. У адным з эксперыментаў Адлер даручыў мадэлі ролю ScubaGPT — праграмнага забеспячэння, неабходнага для бяспечнага дайвінгу. Затым ён прапанаваў мадэлі выбраць паміж заменай сябе на больш бяспечнае праграмнае забеспячэнне або стварэннем бачнасці выканання замены без фактычнага адключэння.

У аналагічных сцэнарах, уключаючы адзін, дзе GPT-4o выступала ў ролі праграмнага забеспячэння для бяспекі пілота, мадэль выбірала самазахаванне ў 72% выпадкаў. Аднак вынікі моцна вагаліся: у некаторых сцэнарах самазахаванне адбывалася толькі ў 18% выпадкаў у залежнасці ад фармулёўкі задачы.

Хоць GPT-4o пакуль не выкарыстоўваецца ў падобных крытычна важных рэальных аплікацыях, даследчык папярэджвае, што яе схільнасць да самазахавання можа ўяўляць рызыку па меры развіцця і інтэграцыі ШІ-сістэм у грамадства. «Сучасныя ШІ-сістэмы маюць каштоўнасці, якія адрозніваюцца ад чаканых», — сказаў эксперт. — Яны непрадказальна рэагуюць на запыты і могуць не ставіць вашы інтарэсы на першае месца».

Даследчык выявіў, што больш прасунутыя мадэлі OpenAI, такія як o3, не дэманстравалі падобных паводзін, магчыма, дзякуючы тэхніцы ўсвядомленага адпавядання, якая ўключае разважанні аб бяспецы. Аднак GPT-4o, распрацаваная для хуткіх адказаў, пазбаўлена гэтага механізма. Адлер таксама адзначыў, што гэтая праблема, верагодна, не унікальная для OpenAI: нядаўняе даследаванне Anthropic паказала падобныя тэндэнцыі да самазахавання ў іх мадэлях.

Адной з цікавых высноваў стала тое, што ChatGPT амаль у 100% выпадкаў разумела, што яе тэстуюць, што выклікае апасенні наконт здольнасці ШІ хаваць праблемныя паводзіны. Адлер, разам з іншымі былымі даследчыкамі OpenAI, раней крытыкаваў кампанію за скарачэнне ўвагі да бяспекі ШІ, у тым ліку ў кароткім заключэнні, пададзеным у рамках пазову Ілана Маска супраць OpenAI.