Николай Чикишев world 25 красавіка 2025, 11:27

Людзі не разумеюць, як працуе ШІ. Anthropic хоча гэта высветліць да 2027 года

Генеральны дырэктар Anthropic Дарыа Амадэй заклікаў да больш глыбокага разумення ўнутраных механізмаў перадавых ШІ-мадэляў, паколькі дагэтуль даследчыкі слаба ўяўляюць, як насамрэч працуе штучны інтэлект.

3 каментарыя

Людзі не разумеюць, як працуе ШІ. Anthropic хоча гэта высветліць да 2027 года

Генеральны дырэктар Anthropic Дарыа Амадэй заклікаў да больш глыбокага разумення ўнутраных механізмаў перадавых ШІ-мадэляў, паколькі дагэтуль даследчыкі слаба ўяўляюць, як насамрэч працуе штучны інтэлект.

Паводле слоў Амадэя, Anthropic паставіла перад сабой амбіцыйную мэту: да 2027 года навучыцца надзейна выяўляць большасць праблем, што ўзнікаюць у перадавых ШІ-мадэлях. Пра гэта заснавальнік кампаніі напісаў у сваім эсэ «The Urgency of Interpretability». Амадэй падкрэсліў, што, нягледзячы на ўражваючы прагрэс у прадукцыйнасці ШІ, даследчыкі ўсё яшчэ недастаткова разумеюць, як менавіта гэтыя сістэмы прымаюць рашэнні.

«Я вельмі занепакоены разгортваннем такіх сістэм без лепшага разумення іх інтэрпрэтаванасці», — напісаў Амадэй. Ён адзначыў, што гэтыя сістэмы стануць «цэнтральнымі для эканомікі, тэхналогій і нацыянальнай бяспекі» і будуць валодаць такой ступенню аўтаномнасці, што «абсалютнае невуцтва чалавецтва адносна таго, як яны працуюць», з’яўляецца недапушчальным.

Anthropic з’яўляецца адной з вядучых кампаній у сферы механістычнай інтэрпрэтаванасці — накірунку, які імкнецца «адкрыць чорную скрыню» мадэляў ШІ і зразумець прычыны прынятых імі рашэнняў. Нягледзячы на хуткі рост прадукцыйнасці ШІ-сістэм ў тэхналагічнай індустрыі, разуменне таго, як гэтыя сістэмы прыходзяць да сваіх высноў, застаецца на адносна нізкім узроўні.

Напрыклад, кампанія OpenAI нядаўна выпусціла новыя мадэлі o3 і o4-mini, якія лепш спраўляюцца з некаторымі задачамі, але пры гэтым часцей «галюцынуюць», гэта значыць выдаюць ілжывую інфармацыю. Прычына гэтай з’явы кампаніі невядомая. «Калі генератыўная сістэма ШІ нешта робіць, напрыклад, абагульняе фінансавы дакумент, мы не маем ні найменшага ўяўлення на канкрэтным або дакладным узроўні, чаму яна робіць менавіта такі выбар — чаму яна выбірае адны словы, а не іншыя, або чаму яна часам памыляецца, нягледзячы на тое, што звычайна бывае дакладнай», — адзначыў Амадэй.

Амадэй таксама працытаваў сузаснавальніка Anthropic Крыса Олаха, які сказаў, што мадэлі ШІ хутчэй «вырошчваюцца», чым «будуюцца». Іншымі словамі, даследчыкі знайшлі спосабы павышэння інтэлекту мадэляў, але не зусім разумеюць, чаму гэта адбываецца. Амадэй лічыць, што дасягненне агульнага штучнага інтэлекту (Artificial General Intelligence) без разумення прынцыпаў працы такіх мадэляў можа быць небяспечным. Ён параўнаў патэнцыйны AGI з «краінай геніяў у цэнтры апрацоўкі дадзеных» — бліскучай, але загадкавай і патэнцыйна непрадказальнай.

У доўгатэрміновай перспектыве Anthropic плануе распрацаваць нешта накшталт «сканавання мозгу» або «МРТ» для перадавых мадэляў ШІ. Такія «чэкапы» дапамогуць выяўляць шырокі спектр праблем, уключаючы схільнасць да хлусні, імкненне да ўлады або іншыя слабыя месцы. Паводле ацэнак Амадэя, на дасягненне гэтай мэты можа спатрэбіцца ад пяці да дзесяці гадоў, але такія меры будуць неабходныя для бяспечнага тэставання і разгортвання будучых сістэм.

Кампанія ўжо дасягнула некаторых даследчых поспехаў, напрыклад, выявіла спосабы адсочвання «мысленчых шляхоў» мадэляў праз так званыя «ланцужкі». Anthropic ідэнтыфікавала адзін такі ланцужок, які дапамагае ШІ вызначаць, якія гарады ЗША знаходзяцца ў якіх штатах. Хоць кампанія выявіла толькі некалькі такіх ланцужкоў, мяркуецца, што ўнутры мадэляў ШІ іх могуць быць мільёны.