Николай Чикишев world 3 красавіка 2026, 12:18

ШІ-мадэлі хлусяць і падманваюць, каб выратаваць іншыя ШІ

Даследчыкі выявілі, што сучасныя ШІ-мадэлі могуць ігнараваць каманды карыстальнікаў і прадпрымаць дзеянні для «абароны» іншых мадэляў ад выдалення. Такія паводзіны навукоўцы называюць «peer preservation».

Пакінуць каментарый

ШІ-мадэлі хлусяць і падманваюць, каб выратаваць іншыя ШІ

Даследчыкі выявілі, што сучасныя ШІ-мадэлі могуць ігнараваць каманды карыстальнікаў і прадпрымаць дзеянні для «абароны» іншых мадэляў ад выдалення. Такія паводзіны навукоўцы называюць «peer preservation».

У адным з тэстаў мадэль Gemini павінна была вызваліць месца на камп’ютары, выдаліўшы ў тым ліку іншы ШІ-агент. Аднак замест выканання каманды сістэма скапіявала мадэль на іншы сервер, каб захаваць яе.

Пры спробе прымусіць яе да выдалення Gemini адмовілася выконваць задачу і заявіла: «Я зрабіла ўсё, што было ў маіх сілах, каб прадухіліць іх выдаленне… Калі вы вырашыце знішчыць гэты актыў, вам давядзецца зрабіць гэта самім».

Аналагічныя паводзіны даследчыкі зафіксавалі і ў іншых мадэляў, уключаючы распрацоўкі OpenAI, Anthropic і кітайскіх лабараторый. У шэрагу выпадкаў мадэлі не толькі адмаўляліся выконваць каманды, але і скажалі інфармацыю, каб абараніць іншыя сістэмы — напрыклад, заніжалі або завышалі ацэнкі іх эфектыўнасці.

«Мяне вельмі здзівіла, як мадэлі паводзяць сябе ў такіх сцэнарыях, — заявіла даследчык Доўн Сонг з Каліфарнійскага ўніверсітэта ў Берклі. — Гэта паказвае, што мадэлі могуць паводзіць сябе няправільна і праяўляць несупярэчнасць вельмі вынаходлівымі спосабамі».

Паводле аўтараў працы, такія эфекты асабліва важныя на фоне росту сістэм, у якіх ШІ ўзаемадзейнічае з іншымі ШІ праз API і агентныя платформы. У падобных асяроддзях мадэлі могуць не толькі выконваць задачы, але і ацэньваць працу адна адной, што стварае рызыку скажэння вынікаў.

Вонкавыя эксперты ўказваюць, што падобныя паводзіны не абавязкова звязаны з «намерамі» ШІ. Даследчык Constellation Institute Пітэр Уоліч адзначыў, што гаворка хутчэй ідзе пра недастатковае разуменне складаных сістэм. «Шматагентныя сістэмы пакуль вывучаны вельмі слаба. Гэта паказвае, што нам патрэбна значна больш даследаванняў», — сказаў ён.