Николай Чикишев world 29 мая 2025, 12:45

Калі чат-бот пачаў тупіць, не працягвайце дыялог — пачніце новы

Новае даследаванне Microsoft і Salesforce высветліла, што нават самыя перадавыя мадэлі штучнага інтэлекту робяцца значна менш надзейнымі па меры павелічэння дыялогу. У сярэднім прадукцыйнасць сістэм падала на 39% у такіх сцэнарах.

Пакінуць каментарый

Каб змадэляваць рэальнае ўзаемадзеянне людзей з ШІ-асістэнтамі, даследчыкі распрацавалі ўласны метад тэставання. Замест таго каб даваць мадэлі ўсю інфармацыю адразу, яны разбівалі кожнае заданне на больш дробныя часткі, імітуючы тое, як карыстальнікі звычайна ўдакладняюць свае запыты ў ходзе дыялогу.

Кожны эксперымент уключаў ад 90 да 120 інструкцый, падзеленых на падзадачы з высакаякасных набораў дадзеных. Калі ШІ-мадэлі апрацоўвалі інструкцыі па кроках, іх дакладнасць зніжалася з прыкладна 90% да ўсяго толькі 51%. Гэта рэзкае зніжэнне назіралася ва ўсіх 15 пратэставаных мадэляў, ад невялікіх мадэляў з адкрытым зыходным кодам, такіх як Llama-3.1-8B, да буйных камерцыйных сістэм, такіх як GPT-4o.

Нават лепшыя мадэлі ў даследаванні — Claude 3.7 Sonnet, Gemini 2.5 Pro і GPT-4.1 — паказалі зніжэнне прадукцыйнасці на 30–40% у шматэтапных размовах у параўнанні з аднаэтапнымі запытамі. Мадэлі таксама станавіліся значна менш паслядоўнымі, а вынікі вагаліся значна мацней, чым пры аднаразовых узаемадзеяннях.

Даследчыкі вылучылі чатыры ключавыя праблемы ШІ-сістэм: мадэлі часта робяць паспешныя высновы, не маючы ўсіх неабходных дэталяў; яны празмерна абапіраюцца на свае папярэднія (часам памылковыя) адказы; ігнаруюць інфармацыю з сярэдзіны дыялогу і ствараюць залішне падрабязныя адказы, што прыводзіць да няправільных здагадкаў пра прабелы ў інфармацыі.

Каманда пратэставала некалькі тэхнічных рашэнняў для павышэння надзейнасці, напрыклад, такое як паўтарэнне інструкцый карыстальніка агентам. Ніводнае з гэтых змяненняў не прывяло да значных паляпшэнняў. Змяненне ўзроўню дэталізацыі інструкцый на кожным этапе таксама не моцна палепшыла сітуацыю. Адзіным надзейным рашэннем аказалася наданне ўсёй інфармацыі мадэлі адразу на пачатку.

Амаль палова амерыканскіх цэркваў выкарыстоўваюць ШІ, кожная дзясятая — крыпту

Па тэме

Амаль палова амерыканскіх цэркваў выкарыстоўваюць ШІ, кожная дзясятая — крыпту

Meta губляе таленты: ШІ-каманда разбягаецца па канкурэнтах

Па тэме

Meta губляе таленты: ШІ-каманда разбягаецца па канкурэнтах

ШІ паказвае вышэйшы эмацыйны інтэлект, чым людзі

Па тэме

ШІ паказвае вышэйшы эмацыйны інтэлект, чым людзі

Читать на dev.by