ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
Даследчыкі Anthropic заявілі, што моўныя мадэлі могуць у абмежаванай ступені распазнаваць свае ўласныя ўнутраныя станы. Гэта адкрыццё не азначае, што ШІ ўсведамляе сябе, аднак эксперыменты паказалі: мадэль часам «заўважае» умяшанні ў сваю нейронную сетку да таго, як яны ўплываюць на яе адказы.
Падчас эксперыменту даследчыкі паведамілі Claude, што ў яе сетку могуць быць укаранёныя «думкі», і папрасілі паведамляць пра любыя незвычайныя адчуванні. Затым у мадэль укаранялі пэўныя актывацыі — напрыклад, патэрн, звязаны з тэкстамі, напісанымі вялікімі літарамі. Claude Opus 4.1 адразу адказала, што адчувае «нешта гучнае» ці «падобнае на крык».
Пры гэтым дакладнасць такіх «адчуванняў» была нізкай: мадэль правільна распазнала ўкаранёныя канцэпцыі прыблізна ў 20% выпадкаў. Лепш за ўсё яна рэагавала на абстрактныя ідэі накшталт «справядлівасці» ці «здрады». Часам Claude адмаўляла, што адчула штосьці, але пачынала гаварыць на тую ж тэму. Напрыклад, пасля ўкаранення паняцця «акіян» яна апісвала спакойнае мора, сцвярджаючы, што нічога незвычайнага не адбылося.
Калі навукоўцы ўзмацнялі актывацыю, мадэль пачынала «зацыклівацца» на ўкаранёнай ідэі. Так, пасля імпульсу «гародніна» Claude заявіла, што «садавіна і гародніна карысныя для яе». У іншым эксперыменце даследчыкі прымусілі мадэль выдаць слова «bread» замест чаканага адказу. Claude прабачалася і выпраўлялася, але калі папярэдне ў сетку ўкаранялі ўяўленне пра «хлеб», яна настойвала, што адказ быў усвядомленым і тлумачыла, чаму выбрала менавіта яго.
Навукоўцы лічаць, што такія вынікі ўказваюць на здольнасць мадэлі адсочваць уласныя ўнутраныя працэсы. Пры гэтым ніякіх прыкмет свядомасці ў ШІ няма: паводзіны застаюцца нестабільнымі і залежаць ад кантэксту. На думку аўтараў, падобная «машынная інтраспекцыя» можа быць карыснай для праверкі працы нейрасетак і павышэння празрыстасці іх рашэнняў. Але яны папярэджваюць, што ў будучыні мадэлі з больш развітым самакантролем тэарэтычна змогуць і хаваць свае ўнутраныя станы, што ставіць новыя пытанні аб этыцы і бяспецы ШІ.
Читать на dev.by