Николай Чикишев world 9 чэрвеня 2026, 14:56

Як знізіць рызыку памылак ШІ-агентаў? Навукоўцы знайшлі рашэнне

ШІ-агенты могуць правільна зразумець задачу, але памыліцца ўжо на этапе выканання. Даследчыкі Amazon Web Services прапанавалі просты механізм, каб знізіць верагоднасць памылак.

1 каментарый

Як знізіць рызыку памылак ШІ-агентаў? Навукоўцы знайшлі рашэнне

ШІ-агенты могуць правільна зразумець задачу, але памыліцца ўжо на этапе выканання. Даследчыкі Amazon Web Services прапанавалі просты механізм, каб знізіць верагоднасць памылак.

Аўтары новага даследавання лічаць, што праблема часта звязаная не толькі з самой мадэллю, але і з праграмнай абвязкай паміж мадэллю, інструментамі і асяроддзем, дзе агент выконвае дзеянні.

Дырэктар AWS па прыкладной навуцы ў галіне агентнага ШІ Ануп Дэорас заявіў, што без такіх механізмаў кампаніі рызыкуюць працаваць без разумення таго, што адбываецца. «Без гэтага мы можам фактычна дзейнічаць усляпую», — сказаў ён.

Даследчыкі называюць ключавую праблему intent-execution gap — разрывам паміж намерам карыстальніка і фактычным выкананнем задачы агентам. Прасцей кажучы, карыстальнік просіць агента зрабіць адно, мадэль фарміруе план, але на этапе выканання праз інструменты вынік можа адрознівацца ад першапачатковай задумы.

Такі збой узнікае ў пласце, які злучае моўную мадэль з вонкавымі інструментамі: файлавай сістэмай, тэрміналам, рэдактарам кода, API. Дэорас параўноўвае гэты пласт з аперацыйнай сістэмай над мадэллю. Менавіта ён ператварае разважанні мадэлі ў канкрэтныя дзеянні.

Калі гэты пласт распрацаваны некарэктна, агент можа няправільна зразумець стан сістэмы, зрабіць памылковую здагадку і выканаць каманду на яе аснове. Рызыка расце, калі агент доўга разважае без праверкі рэальнага асяроддзя: яго ўнутраная карціна падзей паступова разыходзіцца з фактычным станам сістэмы.

Адным з рашэнняў AWS называе sandbox — ізаляванае тэставае асяроддзе. У ім агент можа правяраць гіпотэзы, запускаць каманды, памыляцца і выпраўляцца да таго, як яго дзеянні закрануць рэальнае працоўнае асяроддзе.

«Калі ў вас няма sandbox, агент альбо будзе дзейнічаць залішне асцярожна, альбо будзе здзяйсняць дзеянні, якія ў доўгатэрміновай перспектыве мы лічым вельмі рызыкоўнымі», — сказаў Дэорас.

У даследаванні таксама гаворыцца пра бэнчмаксінг — штучнае паляпшэнне вынікаў ШІ-агентаў на бэнчмарках за кошт наладаў інфраструктуры, а не рэальнай якасці мадэлі. На вынікі могуць уплываць таймауты, стабільнасць інфраструктуры інферэнсу, хуткасць сеткі і іншыя параметры. Паводле ацэнкі AWS, такія фактары здольныя змяняць паказчыкі на 5–10 працэнтных пунктаў.

Толькі 26% кампаній цалкам кантралююць выдаткі на ІІ

«Мы траціць занадта шмат»: кампаніі вучацца кантраляваць выдаткі на ІІ-токены

«Чат памёр»: OpenAI рыхтуе найбуйнейшае абнаўленне ChatGPT перад IPO

1 каментарый

Тэкст: Николай Чикишев

Знайшлі памылку ў тэксце-вылучыце яе і націсніце Ctrl+Enter. Знайшлі памылку ў тэксце-вылучыце яе і націсніце кнопку «Паведаміць пра памылку».

Сайт компании Вакансии

Размяшчэнне рэкламы

Усе праўкі кода ад ШІ ў Amazon цяпер павінны ўзгадняцца з дасведчанымі інжынерамі, каб больш не ламаць сэрвісы на гадзіны

Супрацоўнікі Amazon скардзяцца, што ШІ толькі павялічвае нагрузку. Вялікае даследаванне пацвярджае іх высновы

5 міфаў пра ШІ-кадаванне — меркаванне эксперта

9 каментарыяў

Чаму карпаратыўныя ШІ-агенты дасюль так часта памыляюцца

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

M D

1

вайбкодеры изобрели стейджинг?

Одним из решений AWS называет sandbox — изолированную тестовую среду. В ней агент может проверять гипотезы, запускать команды, ошибаться и исправляться до того, как его действия затронут реальную рабочую среду.

Увайдзіце, каб пакінуць каментарый