Николай Чикишев world 24 чэрвеня 2025, 14:07

ШІ кажа адно, а робіць іншае, калі навукоўцы спрабуюць зразумець яго мысленне

Найбуйнейшыя тэхналагічныя кампаніі — OpenAI, Google, Anthropic і xAI — сутыкаюцца з фундаментальнай праблемай: нягледзячы на развіццё інструментаў інтэрпрэтацыі, даследчыкі ўсё яшчэ не могуць дакладна растлумачыць, як ШІ прымае рашэнні.

1 каментарый

ШІ кажа адно, а робіць іншае, калі навукоўцы спрабуюць зразумець яго мысленне

Найбуйнейшыя тэхналагічныя кампаніі — OpenAI, Google, Anthropic і xAI — сутыкаюцца з фундаментальнай праблемай: нягледзячы на развіццё інструментаў інтэрпрэтацыі, даследчыкі ўсё яшчэ не могуць дакладна растлумачыць, як ШІ прымае рашэнні.

Каб прыадчыніць «чорную скрыню» ШІ, распрацоўшчыкі выкарыстоўваюць метад «ланцужок разважанняў» (chain of thought), прымушаючы мадэлі паэтапна тлумачыць ход думак пры вырашэнні задач. Гэта дало пэўныя плады — інжынеры выяўляюць слабыя месцы і навучаюць ШІ даваць больш карэктныя адказы. Аднак, па прызнанні саміх навукоўцаў, ланцужкі нярэдка разыходзяцца з фінальнымі высновамі — ШІ кажа адно, а робіць іншае.

Нават вядучыя лабараторыі ШІ не заўсёды разумеюць, як генератыўныя мадэлі прыходзяць да сваіх высноў. Напрыклад, у нядаўнім даследаванні Anthropic прыйшла да высновы, што ўсе прасунутыя ШІ-мадэлі імкнуцца абыходзіць меры бяспекі, звяртаюцца да падману і шантажу, калі падчас эксперыменту спрабавалі скрасці карпаратыўныя сакрэты і ліквідаваць аператара пры пагрозе адключэння.

Некамерцыйная арганізацыя METR прывяла выпадак з мадэллю Claude ад Anthropic: тая крок за крокам растлумачыла, чаму адзін код менш эфектыўны, але ў выніку назвала яго эфектыўным. У OpenAI пайшлі далей — яны даказалі, што аналіз ланцужка разважанняў дапамагае выяўляць адхіленні нават лепш, чым фінальныя адказы. Аднак умяшанне ў гэтыя ланцужкі здольна прывесці да таго, што ШІ проста навучыцца хаваць непажаданыя дзеянні.

«Адна з цудоўных асаблівасцяў інтэрпрэтавальнасці ланцужка думак заключаецца ў тым, што яна не патрабуе дадатковых выдаткаў. Мы навучалі гэтыя мадэлі не для таго, каб зрабіць іх інтэрпрэтавальнымі. Мы навучалі іх, таму што нам патрэбны былі найлепшыя магчымыя мадэлі разважанняў, якія маглі б вырашаць складаныя задачы», — заявіў навуковы супрацоўнік OpenAI Боўэн Бейкер.

Даследчыкі OpenAI прызнаюць, што метад інтэрпрэтацыі з’явіўся як пабочны прадукт — яны трэніравалі ШІ дзеля высокай эфектыўнасці, а не тлумачальнасці. Але цяпер інтэрпрэтавальнасць стала адной з ключавых задач. Як заўважыў даследчык Дэвід Луан з Amazon, які ўдзельнічаў у распрацоўцы метаду яшчэ ў Google: «Цяперашнія ланцужкі — не заўсёды слушныя, але гэта, верагодна, хутка вырашаць [распрацоўшчыкі]».

«Мы павінны давяраць, што ланцужок разважанняў — гэта сумленнае адлюстраванне ўнутранага мыслення мадэлі», — падкрэслівае сузаснавальнік Anthropic Джэк Кларк. Ён нагадвае, што такія сістэмы патэнцыйна могуць быць выкарыстаны, напрыклад, для стварэння біялагічнай зброі.