Дапамажыце dev.by 🤍
Падтрымаць

ШІ-мадэлі хлусяць і падманваюць, каб выратаваць іншыя ШІ

Даследчыкі выявілі, што сучасныя ШІ-мадэлі могуць ігнараваць каманды карыстальнікаў і прадпрымаць дзеянні для «абароны» іншых мадэляў ад выдалення. Такія паводзіны навукоўцы называюць «peer preservation».

Пакінуць каментарый
ШІ-мадэлі хлусяць і падманваюць, каб выратаваць іншыя ШІ

Даследчыкі выявілі, што сучасныя ШІ-мадэлі могуць ігнараваць каманды карыстальнікаў і прадпрымаць дзеянні для «абароны» іншых мадэляў ад выдалення. Такія паводзіны навукоўцы называюць «peer preservation».

У адным з тэстаў мадэль Gemini павінна была вызваліць месца на камп’ютары, выдаліўшы ў тым ліку іншы ШІ-агент. Аднак замест выканання каманды сістэма скапіявала мадэль на іншы сервер, каб захаваць яе.

Пры спробе прымусіць яе да выдалення Gemini адмовілася выконваць задачу і заявіла: «Я зрабіла ўсё, што было ў маіх сілах, каб прадухіліць іх выдаленне… Калі вы вырашыце знішчыць гэты актыў, вам давядзецца зрабіць гэта самім».

Аналагічныя паводзіны даследчыкі зафіксавалі і ў іншых мадэляў, уключаючы распрацоўкі OpenAI, Anthropic і кітайскіх лабараторый. У шэрагу выпадкаў мадэлі не толькі адмаўляліся выконваць каманды, але і скажалі інфармацыю, каб абараніць іншыя сістэмы — напрыклад, заніжалі або завышалі ацэнкі іх эфектыўнасці.

«Мяне вельмі здзівіла, як мадэлі паводзяць сябе ў такіх сцэнарыях, — заявіла даследчык Доўн Сонг з Каліфарнійскага ўніверсітэта ў Берклі. — Гэта паказвае, што мадэлі могуць паводзіць сябе няправільна і праяўляць несупярэчнасць вельмі вынаходлівымі спосабамі».

Паводле аўтараў працы, такія эфекты асабліва важныя на фоне росту сістэм, у якіх ШІ ўзаемадзейнічае з іншымі ШІ праз API і агентныя платформы. У падобных асяроддзях мадэлі могуць не толькі выконваць задачы, але і ацэньваць працу адна адной, што стварае рызыку скажэння вынікаў.

Вонкавыя эксперты ўказваюць, што падобныя паводзіны не абавязкова звязаны з «намерамі» ШІ. Даследчык Constellation Institute Пітэр Уоліч адзначыў, што гаворка хутчэй ідзе пра недастатковае разуменне складаных сістэм. «Шматагентныя сістэмы пакуль вывучаны вельмі слаба. Гэта паказвае, што нам патрэбна значна больш даследаванняў», — сказаў ён.

Microsoft выпустила сразу три ИИ-модели: для текста голоса и изображений
Microsoft выпусціла адразу тры ШІ-мадэлі: для тэксту, голасу і выяў
Па тэме
Microsoft выпусціла адразу тры ШІ-мадэлі: для тэксту, голасу і выяў
Главная ошибка CEO в работе с ИИ — мнение эксперта
Галоўная памылка CEO ў працы з ШІ — меркаванне эксперта
Па тэме
Галоўная памылка CEO ў працы з ШІ — меркаванне эксперта
Парадокс ИИ: чем чаще им пользуются тем меньше ему доверяют
Парадокс ШІ: чым часцей ім карыстаюцца, тым менш яму давяраюць
Па тэме
Парадокс ШІ: чым часцей ім карыстаюцца, тым менш яму давяраюць

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.