Николай Чикишев world 31 кастрычніка 2025, 14:25

ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту

Даследчыкі Anthropic заявілі, што моўныя мадэлі могуць у абмежаванай ступені распазнаваць свае ўласныя ўнутраныя станы. Гэта адкрыццё не азначае, што ШІ ўсведамляе сябе, аднак эксперыменты паказалі: мадэль часам «заўважае» умяшанні ў сваю нейронную сетку да таго, як яны ўплываюць на яе адказы.

Пакінуць каментарый

ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту

Даследчыкі Anthropic заявілі, што моўныя мадэлі могуць у абмежаванай ступені распазнаваць свае ўласныя ўнутраныя станы. Гэта адкрыццё не азначае, што ШІ ўсведамляе сябе, аднак эксперыменты паказалі: мадэль часам «заўважае» умяшанні ў сваю нейронную сетку да таго, як яны ўплываюць на яе адказы.

Падчас эксперыменту даследчыкі паведамілі Claude, што ў яе сетку могуць быць укаранёныя «думкі», і папрасілі паведамляць пра любыя незвычайныя адчуванні. Затым у мадэль укаранялі пэўныя актывацыі — напрыклад, патэрн, звязаны з тэкстамі, напісанымі вялікімі літарамі. Claude Opus 4.1 адразу адказала, што адчувае «нешта гучнае» ці «падобнае на крык».

Ілюстрацыя эксперыменту Anthropic: даследчыкі ўкараняюць у нейрасетку Claude «вектар вялікіх літар» — штучную думку аб гучнасці, якую мадэль затым самастойна распазнае як «адчуванне крыку». Крыніца: Anthropic.

Пры гэтым дакладнасць такіх «адчуванняў» была нізкай: мадэль правільна распазнала ўкаранёныя канцэпцыі прыблізна ў 20% выпадкаў. Лепш за ўсё яна рэагавала на абстрактныя ідэі накшталт «справядлівасці» ці «здрады». Часам Claude адмаўляла, што адчула штосьці, але пачынала гаварыць на тую ж тэму. Напрыклад, пасля ўкаранення паняцця «акіян» яна апісвала спакойнае мора, сцвярджаючы, што нічога незвычайнага не адбылося.

Даследчыкі «ўжывілі» ў мадэль паняцце «хлеб» і заўважылі, што Claude пачаў апраўдваць сваё слова, лічачы яго ўсвядомленым выбарам, а не памылкай. Крыніца: Anthropic.

Калі навукоўцы ўзмацнялі актывацыю, мадэль пачынала «зацыклівацца» на ўкаранёнай ідэі. Так, пасля імпульсу «гародніна» Claude заявіла, што «садавіна і гародніна карысныя для яе». У іншым эксперыменце даследчыкі прымусілі мадэль выдаць слова «bread» замест чаканага адказу. Claude прабачалася і выпраўлялася, але калі папярэдне ў сетку ўкаранялі ўяўленне пра «хлеб», яна настойвала, што адказ быў усвядомленым і тлумачыла, чаму выбрала менавіта яго.

Claude Opus 4.1 утрымлівае ўнутранае ўяўленне паняцця «акварыум»: пры інструкцыі «думай пра акварыумы» мадэль актывуе адпаведны вектар заўважна мацней, чым пры камандзе «не думай», што сведчыць пра кантраляваную ўнутраную канцэнтрацыю ўвагі. Крыніца: Anthropic.

Навукоўцы лічаць, што такія вынікі ўказваюць на здольнасць мадэлі адсочваць уласныя ўнутраныя працэсы. Пры гэтым ніякіх прыкмет свядомасці ў ШІ няма: паводзіны застаюцца нестабільнымі і залежаць ад кантэксту. На думку аўтараў, падобная «машынная інтраспекцыя» можа быць карыснай для праверкі працы нейрасетак і павышэння празрыстасці іх рашэнняў. Але яны папярэджваюць, што ў будучыні мадэлі з больш развітым самакантролем тэарэтычна змогуць і хаваць свае ўнутраныя станы, што ставіць новыя пытанні аб этыцы і бяспецы ШІ.