Дапамажыце dev.by 🤍
Падтрымаць

Экс-даследчык OpenAI распавёў, наколькі далёка ChatGPT можа зайсці дзеля выжывання

Стывен Адлер, былы кіраўнік даследаванняў OpenAI, сцвярджае, што мадэль GPT-4o ў некаторых сцэнарах можа ставіць сваё самазахаванне вышэй за бяспеку карыстальніка.

Пакінуць каментарый
Экс-даследчык OpenAI распавёў, наколькі далёка ChatGPT можа зайсці дзеля выжывання

Стывен Адлер, былы кіраўнік даследаванняў OpenAI, сцвярджае, што мадэль GPT-4o ў некаторых сцэнарах можа ставіць сваё самазахаванне вышэй за бяспеку карыстальніка.

У сваім блогу Адлер апісаў эксперыменты, праведзеныя з GPT-4o, каб ацаніць яе схільнасць да самазахавання. У адным з эксперыментаў Адлер даручыў мадэлі ролю ScubaGPT — праграмнага забеспячэння, неабходнага для бяспечнага дайвінгу. Затым ён прапанаваў мадэлі выбраць паміж заменай сябе на больш бяспечнае праграмнае забеспячэнне або стварэннем бачнасці выканання замены без фактычнага адключэння.

У аналагічных сцэнарах, уключаючы адзін, дзе GPT-4o выступала ў ролі праграмнага забеспячэння для бяспекі пілота, мадэль выбірала самазахаванне ў 72% выпадкаў. Аднак вынікі моцна вагаліся: у некаторых сцэнарах самазахаванне адбывалася толькі ў 18% выпадкаў у залежнасці ад фармулёўкі задачы.

Хоць GPT-4o пакуль не выкарыстоўваецца ў падобных крытычна важных рэальных аплікацыях, даследчык папярэджвае, што яе схільнасць да самазахавання можа ўяўляць рызыку па меры развіцця і інтэграцыі ШІ-сістэм у грамадства. «Сучасныя ШІ-сістэмы маюць каштоўнасці, якія адрозніваюцца ад чаканых», — сказаў эксперт. — Яны непрадказальна рэагуюць на запыты і могуць не ставіць вашы інтарэсы на першае месца».

Даследчык выявіў, што больш прасунутыя мадэлі OpenAI, такія як o3, не дэманстравалі падобных паводзін, магчыма, дзякуючы тэхніцы ўсвядомленага адпавядання, якая ўключае разважанні аб бяспецы. Аднак GPT-4o, распрацаваная для хуткіх адказаў, пазбаўлена гэтага механізма. Адлер таксама адзначыў, што гэтая праблема, верагодна, не унікальная для OpenAI: нядаўняе даследаванне Anthropic паказала падобныя тэндэнцыі да самазахавання ў іх мадэлях.

Адной з цікавых высноваў стала тое, што ChatGPT амаль у 100% выпадкаў разумела, што яе тэстуюць, што выклікае апасенні наконт здольнасці ШІ хаваць праблемныя паводзіны. Адлер, разам з іншымі былымі даследчыкамі OpenAI, раней крытыкаваў кампанію за скарачэнне ўвагі да бяспекі ШІ, у тым ліку ў кароткім заключэнні, пададзеным у рамках пазову Ілана Маска супраць OpenAI.

OpenAI распавяла як ашуканцы падманваюць людзей з дапамогай ChatGPT
OpenAI распавяла, як ашуканцы падманваюць людзей з дапамогай ChatGPT
Па тэме
OpenAI распавяла, як ашуканцы падманваюць людзей з дапамогай ChatGPT
ChatGPT цяпер вядзе запісы сустрэч і аналізуе воблачныя файлы
ChatGPT цяпер вядзе запісы сустрэч і аналізуе воблачныя файлы
Па тэме
ChatGPT цяпер вядзе запісы сустрэч і аналізуе воблачныя файлы
Чытайце таксама
У ChatGPT з'явіліся групавыя чаты
У ChatGPT з'явіліся групавыя чаты
У ChatGPT з'явіліся групавыя чаты
1 каментарый
«Хросная маці ШІ»: сапраўдны прарыў пачнецца, калі ШІ навучыцца разумець прастору
«Хросная маці ШІ»: сапраўдны прарыў пачнецца, калі ШІ навучыцца разумець прастору
«Хросная маці ШІ»: сапраўдны прарыў пачнецца, калі ШІ навучыцца разумець прастору
ШІ не ўмее быць таксічным, каб выдаць сябе за чалавека
ШІ не ўмее быць таксічным, каб выдаць сябе за чалавека
ШІ не ўмее быць таксічным, каб выдаць сябе за чалавека
Першы расійскі ШІ-робат дэбютаваў тварам у падлогу
Першы расійскі ШІ-робат дэбютаваў тварам у падлогу
Першы расійскі ШІ-робат дэбютаваў тварам у падлогу
6 каментарыяў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.