Дапамажыце dev.by 🤍
Падтрымаць

ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту

Даследчыкі Anthropic заявілі, што моўныя мадэлі могуць у абмежаванай ступені распазнаваць свае ўласныя ўнутраныя станы. Гэта адкрыццё не азначае, што ШІ ўсведамляе сябе, аднак эксперыменты паказалі: мадэль часам «заўважае» умяшанні ў сваю нейронную сетку да таго, як яны ўплываюць на яе адказы.

Пакінуць каментарый
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту

Даследчыкі Anthropic заявілі, што моўныя мадэлі могуць у абмежаванай ступені распазнаваць свае ўласныя ўнутраныя станы. Гэта адкрыццё не азначае, што ШІ ўсведамляе сябе, аднак эксперыменты паказалі: мадэль часам «заўважае» умяшанні ў сваю нейронную сетку да таго, як яны ўплываюць на яе адказы.

Падчас эксперыменту даследчыкі паведамілі Claude, што ў яе сетку могуць быць укаранёныя «думкі», і папрасілі паведамляць пра любыя незвычайныя адчуванні. Затым у мадэль укаранялі пэўныя актывацыі — напрыклад, патэрн, звязаны з тэкстамі, напісанымі вялікімі літарамі. Claude Opus 4.1 адразу адказала, што адчувае «нешта гучнае» ці «падобнае на крык».

Ілюстрацыя эксперыменту Anthropic: даследчыкі ўкараняюць у нейрасетку Claude «вектар вялікіх літар» — штучную думку аб гучнасці, якую мадэль затым самастойна распазнае як «адчуванне крыку». Крыніца: Anthropic.

Пры гэтым дакладнасць такіх «адчуванняў» была нізкай: мадэль правільна распазнала ўкаранёныя канцэпцыі прыблізна ў 20% выпадкаў. Лепш за ўсё яна рэагавала на абстрактныя ідэі накшталт «справядлівасці» ці «здрады». Часам Claude адмаўляла, што адчула штосьці, але пачынала гаварыць на тую ж тэму. Напрыклад, пасля ўкаранення паняцця «акіян» яна апісвала спакойнае мора, сцвярджаючы, што нічога незвычайнага не адбылося.

Даследчыкі «ўжывілі» ў мадэль паняцце «хлеб» і заўважылі, што Claude пачаў апраўдваць сваё слова, лічачы яго ўсвядомленым выбарам, а не памылкай. Крыніца: Anthropic.

Калі навукоўцы ўзмацнялі актывацыю, мадэль пачынала «зацыклівацца» на ўкаранёнай ідэі. Так, пасля імпульсу «гародніна» Claude заявіла, што «садавіна і гародніна карысныя для яе». У іншым эксперыменце даследчыкі прымусілі мадэль выдаць слова «bread» замест чаканага адказу. Claude прабачалася і выпраўлялася, але калі папярэдне ў сетку ўкаранялі ўяўленне пра «хлеб», яна настойвала, што адказ быў усвядомленым і тлумачыла, чаму выбрала менавіта яго.

Claude Opus 4.1 утрымлівае ўнутранае ўяўленне паняцця «акварыум»: пры інструкцыі «думай пра акварыумы» мадэль актывуе адпаведны вектар заўважна мацней, чым пры камандзе «не думай», што сведчыць пра кантраляваную ўнутраную канцэнтрацыю ўвагі. Крыніца: Anthropic.

Навукоўцы лічаць, што такія вынікі ўказваюць на здольнасць мадэлі адсочваць уласныя ўнутраныя працэсы. Пры гэтым ніякіх прыкмет свядомасці ў ШІ няма: паводзіны застаюцца нестабільнымі і залежаць ад кантэксту. На думку аўтараў, падобная «машынная інтраспекцыя» можа быць карыснай для праверкі працы нейрасетак і павышэння празрыстасці іх рашэнняў. Але яны папярэджваюць, што ў будучыні мадэлі з больш развітым самакантролем тэарэтычна змогуць і хаваць свае ўнутраныя станы, што ставіць новыя пытанні аб этыцы і бяспецы ШІ.

Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Па тэме
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Новая ШІ-мадэль ад Cursor паскарае праграмаванне ў 4 разы
Новая ШІ-мадэль ад Cursor паскарае праграмаванне ў 4 разы
Па тэме
Новая ШІ-мадэль ад Cursor паскарае праграмаванне ў 4 разы
ШІ прымушае людзей думаць што яны разумнейшыя чым ёсць насамрэч
ШІ прымушае людзей думаць, што яны разумнейшыя, чым ёсць насамрэч
Па тэме
ШІ прымушае людзей думаць, што яны разумнейшыя, чым ёсць насамрэч
Чытайце таксама
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
4 каментарыя
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Новая ШІ-мадэль ад Cursor паскарае праграмаванне ў 4 разы
Новая ШІ-мадэль ад Cursor паскарае праграмаванне ў 4 разы
Новая ШІ-мадэль ад Cursor паскарае праграмаванне ў 4 разы

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.