Калі чат-бот пачаў тупіць, не працягвайце дыялог — пачніце новы
Новае даследаванне Microsoft і Salesforce высветліла, што нават самыя перадавыя мадэлі штучнага інтэлекту робяцца значна менш надзейнымі па меры павелічэння дыялогу. У сярэднім прадукцыйнасць сістэм падала на 39% у такіх сцэнарах.
Каб змадэляваць рэальнае ўзаемадзеянне людзей з ШІ-асістэнтамі, даследчыкі распрацавалі ўласны метад тэставання. Замест таго каб даваць мадэлі ўсю інфармацыю адразу, яны разбівалі кожнае заданне на больш дробныя часткі, імітуючы тое, як карыстальнікі звычайна ўдакладняюць свае запыты ў ходзе дыялогу.
Кожны эксперымент уключаў ад 90 да 120 інструкцый, падзеленых на падзадачы з высакаякасных набораў дадзеных. Калі ШІ-мадэлі апрацоўвалі інструкцыі па кроках, іх дакладнасць зніжалася з прыкладна 90% да ўсяго толькі 51%. Гэта рэзкае зніжэнне назіралася ва ўсіх 15 пратэставаных мадэляў, ад невялікіх мадэляў з адкрытым зыходным кодам, такіх як Llama-3.1-8B, да буйных камерцыйных сістэм, такіх як GPT-4o.
Нават лепшыя мадэлі ў даследаванні — Claude 3.7 Sonnet, Gemini 2.5 Pro і GPT-4.1 — паказалі зніжэнне прадукцыйнасці на 30–40% у шматэтапных размовах у параўнанні з аднаэтапнымі запытамі. Мадэлі таксама станавіліся значна менш паслядоўнымі, а вынікі вагаліся значна мацней, чым пры аднаразовых узаемадзеяннях.
Даследчыкі вылучылі чатыры ключавыя праблемы ШІ-сістэм: мадэлі часта робяць паспешныя высновы, не маючы ўсіх неабходных дэталяў; яны празмерна абапіраюцца на свае папярэднія (часам памылковыя) адказы; ігнаруюць інфармацыю з сярэдзіны дыялогу і ствараюць залішне падрабязныя адказы, што прыводзіць да няправільных здагадкаў пра прабелы ў інфармацыі.
Каманда пратэставала некалькі тэхнічных рашэнняў для павышэння надзейнасці, напрыклад, такое як паўтарэнне інструкцый карыстальніка агентам. Ніводнае з гэтых змяненняў не прывяло да значных паляпшэнняў. Змяненне ўзроўню дэталізацыі інструкцый на кожным этапе таксама не моцна палепшыла сітуацыю. Адзіным надзейным рашэннем аказалася наданне ўсёй інфармацыі мадэлі адразу на пачатку.
Читать на dev.by