ШІ-мадэлі хлусяць і падманваюць, каб выратаваць іншыя ШІ
Даследчыкі выявілі, што сучасныя ШІ-мадэлі могуць ігнараваць каманды карыстальнікаў і прадпрымаць дзеянні для «абароны» іншых мадэляў ад выдалення. Такія паводзіны навукоўцы называюць «peer preservation».
Даследчыкі выявілі, што сучасныя ШІ-мадэлі могуць ігнараваць каманды карыстальнікаў і прадпрымаць дзеянні для «абароны» іншых мадэляў ад выдалення. Такія паводзіны навукоўцы называюць «peer preservation».
У адным з тэстаў мадэль Gemini павінна была вызваліць месца на камп’ютары, выдаліўшы ў тым ліку іншы ШІ-агент. Аднак замест выканання каманды сістэма скапіявала мадэль на іншы сервер, каб захаваць яе.
Пры спробе прымусіць яе да выдалення Gemini адмовілася выконваць задачу і заявіла: «Я зрабіла ўсё, што было ў маіх сілах, каб прадухіліць іх выдаленне… Калі вы вырашыце знішчыць гэты актыў, вам давядзецца зрабіць гэта самім».
Аналагічныя паводзіны даследчыкі зафіксавалі і ў іншых мадэляў, уключаючы распрацоўкі OpenAI, Anthropic і кітайскіх лабараторый. У шэрагу выпадкаў мадэлі не толькі адмаўляліся выконваць каманды, але і скажалі інфармацыю, каб абараніць іншыя сістэмы — напрыклад, заніжалі або завышалі ацэнкі іх эфектыўнасці.
«Мяне вельмі здзівіла, як мадэлі паводзяць сябе ў такіх сцэнарыях, — заявіла даследчык Доўн Сонг з Каліфарнійскага ўніверсітэта ў Берклі. — Гэта паказвае, што мадэлі могуць паводзіць сябе няправільна і праяўляць несупярэчнасць вельмі вынаходлівымі спосабамі».
Паводле аўтараў працы, такія эфекты асабліва важныя на фоне росту сістэм, у якіх ШІ ўзаемадзейнічае з іншымі ШІ праз API і агентныя платформы. У падобных асяроддзях мадэлі могуць не толькі выконваць задачы, але і ацэньваць працу адна адной, што стварае рызыку скажэння вынікаў.
Вонкавыя эксперты ўказваюць, што падобныя паводзіны не абавязкова звязаны з «намерамі» ШІ. Даследчык Constellation Institute Пітэр Уоліч адзначыў, што гаворка хутчэй ідзе пра недастатковае разуменне складаных сістэм. «Шматагентныя сістэмы пакуль вывучаны вельмі слаба. Гэта паказвае, што нам патрэбна значна больш даследаванняў», — сказаў ён.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.