Дапамажыце dev.by 🤍
Падтрымаць

Калі чат-бот пачаў тупіць, не працягвайце дыялог — пачніце новы

Новае даследаванне Microsoft і Salesforce высветліла, што нават самыя перадавыя мадэлі штучнага інтэлекту робяцца значна менш надзейнымі па меры павелічэння дыялогу. У сярэднім прадукцыйнасць сістэм падала на 39% у такіх сцэнарах.

Пакінуць каментарый
Калі чат-бот пачаў тупіць, не працягвайце дыялог — пачніце новы

Новае даследаванне Microsoft і Salesforce высветліла, што нават самыя перадавыя мадэлі штучнага інтэлекту робяцца значна менш надзейнымі па меры павелічэння дыялогу. У сярэднім прадукцыйнасць сістэм падала на 39% у такіх сцэнарах.

Каб змадэляваць рэальнае ўзаемадзеянне людзей з ШІ-асістэнтамі, даследчыкі распрацавалі ўласны метад тэставання. Замест таго каб даваць мадэлі ўсю інфармацыю адразу, яны разбівалі кожнае заданне на больш дробныя часткі, імітуючы тое, як карыстальнікі звычайна ўдакладняюць свае запыты ў ходзе дыялогу.

Кожны эксперымент уключаў ад 90 да 120 інструкцый, падзеленых на падзадачы з высакаякасных набораў дадзеных. Калі ШІ-мадэлі апрацоўвалі інструкцыі па кроках, іх дакладнасць зніжалася з прыкладна 90% да ўсяго толькі 51%. Гэта рэзкае зніжэнне назіралася ва ўсіх 15 пратэставаных мадэляў, ад невялікіх мадэляў з адкрытым зыходным кодам, такіх як Llama-3.1-8B, да буйных камерцыйных сістэм, такіх як GPT-4o.

Нават лепшыя мадэлі ў даследаванні — Claude 3.7 Sonnet, Gemini 2.5 Pro і GPT-4.1 — паказалі зніжэнне прадукцыйнасці на 30–40% у шматэтапных размовах у параўнанні з аднаэтапнымі запытамі. Мадэлі таксама станавіліся значна менш паслядоўнымі, а вынікі вагаліся значна мацней, чым пры аднаразовых узаемадзеяннях.

Даследчыкі вылучылі чатыры ключавыя праблемы ШІ-сістэм: мадэлі часта робяць паспешныя высновы, не маючы ўсіх неабходных дэталяў; яны празмерна абапіраюцца на свае папярэднія (часам памылковыя) адказы; ігнаруюць інфармацыю з сярэдзіны дыялогу і ствараюць залішне падрабязныя адказы, што прыводзіць да няправільных здагадкаў пра прабелы ў інфармацыі.

Каманда пратэставала некалькі тэхнічных рашэнняў для павышэння надзейнасці, напрыклад, такое як паўтарэнне інструкцый карыстальніка агентам. Ніводнае з гэтых змяненняў не прывяло да значных паляпшэнняў. Змяненне ўзроўню дэталізацыі інструкцый на кожным этапе таксама не моцна палепшыла сітуацыю. Адзіным надзейным рашэннем аказалася наданне ўсёй інфармацыі мадэлі адразу на пачатку.

Амаль палова амерыканскіх цэркваў выкарыстоўваюць ШІ кожная дзясятая — крыпту
Амаль палова амерыканскіх цэркваў выкарыстоўваюць ШІ, кожная дзясятая — крыпту
Па тэме
Амаль палова амерыканскіх цэркваў выкарыстоўваюць ШІ, кожная дзясятая — крыпту
Meta губляе таленты: ШІ-каманда разбягаецца па канкурэнтах
Meta губляе таленты: ШІ-каманда разбягаецца па канкурэнтах
Па тэме
Meta губляе таленты: ШІ-каманда разбягаецца па канкурэнтах
ШІ паказвае вышэйшы эмацыйны інтэлект чым людзі
ШІ паказвае вышэйшы эмацыйны інтэлект, чым людзі
Па тэме
ШІ паказвае вышэйшы эмацыйны інтэлект, чым людзі
Чытайце таксама
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
7 каментарыяў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.