Дапамажыце dev.by 🤍
Падтрымаць

ШІ кажа адно, а робіць іншае, калі навукоўцы спрабуюць зразумець яго мысленне

Найбуйнейшыя тэхналагічныя кампаніі — OpenAI, Google, Anthropic і xAI — сутыкаюцца з фундаментальнай праблемай: нягледзячы на развіццё інструментаў інтэрпрэтацыі, даследчыкі ўсё яшчэ не могуць дакладна растлумачыць, як ШІ прымае рашэнні.

1 каментарый
ШІ кажа адно, а робіць іншае, калі навукоўцы спрабуюць зразумець яго мысленне

Найбуйнейшыя тэхналагічныя кампаніі — OpenAI, Google, Anthropic і xAI — сутыкаюцца з фундаментальнай праблемай: нягледзячы на развіццё інструментаў інтэрпрэтацыі, даследчыкі ўсё яшчэ не могуць дакладна растлумачыць, як ШІ прымае рашэнні.

Каб прыадчыніць «чорную скрыню» ШІ, распрацоўшчыкі выкарыстоўваюць метад «ланцужок разважанняў» (chain of thought), прымушаючы мадэлі паэтапна тлумачыць ход думак пры вырашэнні задач. Гэта дало пэўныя плады — інжынеры выяўляюць слабыя месцы і навучаюць ШІ даваць больш карэктныя адказы. Аднак, па прызнанні саміх навукоўцаў, ланцужкі нярэдка разыходзяцца з фінальнымі высновамі — ШІ кажа адно, а робіць іншае.

Нават вядучыя лабараторыі ШІ не заўсёды разумеюць, як генератыўныя мадэлі прыходзяць да сваіх высноў. Напрыклад, у нядаўнім даследаванні Anthropic прыйшла да высновы, што ўсе прасунутыя ШІ-мадэлі імкнуцца абыходзіць меры бяспекі, звяртаюцца да падману і шантажу, калі падчас эксперыменту спрабавалі скрасці карпаратыўныя сакрэты і ліквідаваць аператара пры пагрозе адключэння.

Некамерцыйная арганізацыя METR прывяла выпадак з мадэллю Claude ад Anthropic: тая крок за крокам растлумачыла, чаму адзін код менш эфектыўны, але ў выніку назвала яго эфектыўным. У OpenAI пайшлі далей — яны даказалі, што аналіз ланцужка разважанняў дапамагае выяўляць адхіленні нават лепш, чым фінальныя адказы. Аднак умяшанне ў гэтыя ланцужкі здольна прывесці да таго, што ШІ проста навучыцца хаваць непажаданыя дзеянні.

«Адна з цудоўных асаблівасцяў інтэрпрэтавальнасці ланцужка думак заключаецца ў тым, што яна не патрабуе дадатковых выдаткаў. Мы навучалі гэтыя мадэлі не для таго, каб зрабіць іх інтэрпрэтавальнымі. Мы навучалі іх, таму што нам патрэбны былі найлепшыя магчымыя мадэлі разважанняў, якія маглі б вырашаць складаныя задачы», — заявіў навуковы супрацоўнік OpenAI Боўэн Бейкер.

Даследчыкі OpenAI прызнаюць, што метад інтэрпрэтацыі з’явіўся як пабочны прадукт — яны трэніравалі ШІ дзеля высокай эфектыўнасці, а не тлумачальнасці. Але цяпер інтэрпрэтавальнасць стала адной з ключавых задач. Як заўважыў даследчык Дэвід Луан з Amazon, які ўдзельнічаў у распрацоўцы метаду яшчэ ў Google: «Цяперашнія ланцужкі — не заўсёды слушныя, але гэта, верагодна, хутка вырашаць [распрацоўшчыкі]».

«Мы павінны давяраць, што ланцужок разважанняў — гэта сумленнае адлюстраванне ўнутранага мыслення мадэлі», — падкрэслівае сузаснавальнік Anthropic Джэк Кларк. Ён нагадвае, што такія сістэмы патэнцыйна могуць быць выкарыстаны, напрыклад, для стварэння біялагічнай зброі.

ШІ-вакансій у LinkedIn стала больш у шэсць разоў за год
ШІ-вакансій у LinkedIn стала больш у шэсць разоў за год
Па тэме
ШІ-вакансій у LinkedIn стала больш у шэсць разоў за год
Кампаніі вяртаюцца да асабістых сумоўяў з-за ШІ
Кампаніі вяртаюцца да асабістых сумоўяў з-за ШІ
Па тэме
Кампаніі вяртаюцца да асабістых сумоўяў з-за ШІ
Чытайце таксама
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

1

как ИИ принимает решения

случайным образом:) и хватит уже выдумывать - "ии" не мыслит - это имитация

Карыстальнік адрэдагаваў каментарый 25 чэрвеня 2025, 09:12