Николай Чикишев world 29 мая 2025, 12:45

Калі чат-бот пачаў тупіць, не працягвайце дыялог — пачніце новы

Новае даследаванне Microsoft і Salesforce высветліла, што нават самыя перадавыя мадэлі штучнага інтэлекту робяцца значна менш надзейнымі па меры павелічэння дыялогу. У сярэднім прадукцыйнасць сістэм падала на 39% у такіх сцэнарах.

Пакінуць каментарый

Калі чат-бот пачаў тупіць, не працягвайце дыялог — пачніце новы

Новае даследаванне Microsoft і Salesforce высветліла, што нават самыя перадавыя мадэлі штучнага інтэлекту робяцца значна менш надзейнымі па меры павелічэння дыялогу. У сярэднім прадукцыйнасць сістэм падала на 39% у такіх сцэнарах.

Каб змадэляваць рэальнае ўзаемадзеянне людзей з ШІ-асістэнтамі, даследчыкі распрацавалі ўласны метад тэставання. Замест таго каб даваць мадэлі ўсю інфармацыю адразу, яны разбівалі кожнае заданне на больш дробныя часткі, імітуючы тое, як карыстальнікі звычайна ўдакладняюць свае запыты ў ходзе дыялогу.

Кожны эксперымент уключаў ад 90 да 120 інструкцый, падзеленых на падзадачы з высакаякасных набораў дадзеных. Калі ШІ-мадэлі апрацоўвалі інструкцыі па кроках, іх дакладнасць зніжалася з прыкладна 90% да ўсяго толькі 51%. Гэта рэзкае зніжэнне назіралася ва ўсіх 15 пратэставаных мадэляў, ад невялікіх мадэляў з адкрытым зыходным кодам, такіх як Llama-3.1-8B, да буйных камерцыйных сістэм, такіх як GPT-4o.

Нават лепшыя мадэлі ў даследаванні — Claude 3.7 Sonnet, Gemini 2.5 Pro і GPT-4.1 — паказалі зніжэнне прадукцыйнасці на 30–40% у шматэтапных размовах у параўнанні з аднаэтапнымі запытамі. Мадэлі таксама станавіліся значна менш паслядоўнымі, а вынікі вагаліся значна мацней, чым пры аднаразовых узаемадзеяннях.

Даследчыкі вылучылі чатыры ключавыя праблемы ШІ-сістэм: мадэлі часта робяць паспешныя высновы, не маючы ўсіх неабходных дэталяў; яны празмерна абапіраюцца на свае папярэднія (часам памылковыя) адказы; ігнаруюць інфармацыю з сярэдзіны дыялогу і ствараюць залішне падрабязныя адказы, што прыводзіць да няправільных здагадкаў пра прабелы ў інфармацыі.

Каманда пратэставала некалькі тэхнічных рашэнняў для павышэння надзейнасці, напрыклад, такое як паўтарэнне інструкцый карыстальніка агентам. Ніводнае з гэтых змяненняў не прывяло да значных паляпшэнняў. Змяненне ўзроўню дэталізацыі інструкцый на кожным этапе таксама не моцна палепшыла сітуацыю. Адзіным надзейным рашэннем аказалася наданне ўсёй інфармацыі мадэлі адразу на пачатку.