Дапамажыце dev.by 🤍
Падтрымаць

Калі чат-бот пачаў тупіць, не працягвайце дыялог — пачніце новы

Новае даследаванне Microsoft і Salesforce высветліла, што нават самыя перадавыя мадэлі штучнага інтэлекту робяцца значна менш надзейнымі па меры павелічэння дыялогу. У сярэднім прадукцыйнасць сістэм падала на 39% у такіх сцэнарах.

Пакінуць каментарый
Калі чат-бот пачаў тупіць, не працягвайце дыялог — пачніце новы

Новае даследаванне Microsoft і Salesforce высветліла, што нават самыя перадавыя мадэлі штучнага інтэлекту робяцца значна менш надзейнымі па меры павелічэння дыялогу. У сярэднім прадукцыйнасць сістэм падала на 39% у такіх сцэнарах.

Каб змадэляваць рэальнае ўзаемадзеянне людзей з ШІ-асістэнтамі, даследчыкі распрацавалі ўласны метад тэставання. Замест таго каб даваць мадэлі ўсю інфармацыю адразу, яны разбівалі кожнае заданне на больш дробныя часткі, імітуючы тое, як карыстальнікі звычайна ўдакладняюць свае запыты ў ходзе дыялогу.

Кожны эксперымент уключаў ад 90 да 120 інструкцый, падзеленых на падзадачы з высакаякасных набораў дадзеных. Калі ШІ-мадэлі апрацоўвалі інструкцыі па кроках, іх дакладнасць зніжалася з прыкладна 90% да ўсяго толькі 51%. Гэта рэзкае зніжэнне назіралася ва ўсіх 15 пратэставаных мадэляў, ад невялікіх мадэляў з адкрытым зыходным кодам, такіх як Llama-3.1-8B, да буйных камерцыйных сістэм, такіх як GPT-4o.

Нават лепшыя мадэлі ў даследаванні — Claude 3.7 Sonnet, Gemini 2.5 Pro і GPT-4.1 — паказалі зніжэнне прадукцыйнасці на 30–40% у шматэтапных размовах у параўнанні з аднаэтапнымі запытамі. Мадэлі таксама станавіліся значна менш паслядоўнымі, а вынікі вагаліся значна мацней, чым пры аднаразовых узаемадзеяннях.

Даследчыкі вылучылі чатыры ключавыя праблемы ШІ-сістэм: мадэлі часта робяць паспешныя высновы, не маючы ўсіх неабходных дэталяў; яны празмерна абапіраюцца на свае папярэднія (часам памылковыя) адказы; ігнаруюць інфармацыю з сярэдзіны дыялогу і ствараюць залішне падрабязныя адказы, што прыводзіць да няправільных здагадкаў пра прабелы ў інфармацыі.

Каманда пратэставала некалькі тэхнічных рашэнняў для павышэння надзейнасці, напрыклад, такое як паўтарэнне інструкцый карыстальніка агентам. Ніводнае з гэтых змяненняў не прывяло да значных паляпшэнняў. Змяненне ўзроўню дэталізацыі інструкцый на кожным этапе таксама не моцна палепшыла сітуацыю. Адзіным надзейным рашэннем аказалася наданне ўсёй інфармацыі мадэлі адразу на пачатку.

Амаль палова амерыканскіх цэркваў выкарыстоўваюць ШІ кожная дзясятая — крыпту
Амаль палова амерыканскіх цэркваў выкарыстоўваюць ШІ, кожная дзясятая — крыпту
Па тэме
Амаль палова амерыканскіх цэркваў выкарыстоўваюць ШІ, кожная дзясятая — крыпту
Meta губляе таленты: ШІ-каманда разбягаецца па канкурэнтах
Meta губляе таленты: ШІ-каманда разбягаецца па канкурэнтах
Па тэме
Meta губляе таленты: ШІ-каманда разбягаецца па канкурэнтах
ШІ паказвае вышэйшы эмацыйны інтэлект чым людзі
ШІ паказвае вышэйшы эмацыйны інтэлект, чым людзі
Па тэме
ШІ паказвае вышэйшы эмацыйны інтэлект, чым людзі
Чытайце таксама
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity. 
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.