ШІ-агенты пакуль дрэнна спраўляюцца з продажамі і абслугоўваннем кліентаў
Кампанія Salesforce прэзентавала новы бэнчмарк CRMArena-Pro, які выявіў сур’ёзныя абмежаванні ў працы ШІ-агентаў ва ўмовах рэальнага бізнесу.
Кампанія Salesforce прэзентавала новы бэнчмарк CRMArena-Pro, які выявіў сур’ёзныя абмежаванні ў працы ШІ-агентаў ва ўмовах рэальнага бізнесу.
Кампанія Salesforce прэзентавала новы бэнчмарк CRMArena-Pro, які выявіў сур’ёзныя абмежаванні ў працы ШІ-агентаў ва ўмовах рэальнага бізнесу.
CRMArena-Pro распрацаваны для ацэнкі здольнасці вялікіх моўных мадэляў выконваць задачы пры працы з кліентамі (CRM), уключаючы продажы, абслугоўванне і цэнаўтварэнне. У адрозненне ад папярэдняй версіі, новая ўключае 19 відаў бізнес-актыўнасцяў, 4280 задач і тры катэгорыі патрабаванняў па абароне дадзеных.
Salesforce выявіла, што большасць мадэляў не ўмеюць задаваць удакладняючыя пытанні пры недахопе інфармацыі. У 20 прааналізаваных памылках Gemini 2.5 Pro амаль у палове выпадкаў мадэль нават не паспрабавала атрымаць недастаючыя дадзеныя. Мадэлі, схільныя задаваць больш пытанняў, паказалі лепшыя вынікі.
У задачах аўтаматызацыі, такіх як маршрутызацыя зваротаў у падтрымку, Gemini 2.5 Pro паказаў найвышэйшую дакладнасць — 83%, аднак у сцэнарыях, якія патрабуюць аналізу тэксту або выканання правіл, эфектыўнасць рэзка зніжалася. Нават перадавыя мадэлі дасягаюць толькі 58% паспяховасці пры аднаступеньчатых задачах, а пры шматтуравых дыялогах паказчык падае да 35%.
CRMArena-Pro таксама выявіў слабое выкананне нормаў канфідэнцыйнасці. Па змаўчанні ШІ-агенты практычна не распазнаюць запыты на перадачу персанальных або ўнутраных дадзеных. Толькі пасля яўнага ўказання палітыкі канфідэнцыйнасці ў сістэмных падказках мадэлі пачыналі адмаўляцца ад выканання такіх запытаў — пры гэтым агульная дакладнасць зніжалася.
Напрыклад, у GPT-4o дакладнасць выяўлення канфідэнцыйнай інфармацыі вырасла з 0 да 34,2%, але пры гэтым агульная паспяховасць выканання задач знізілася на 2,7 пункта. Адкрытыя мадэлі накшталт LLaMA-3.1 практычна не рэагавалі на карэкціроўкі ў падказках, што ўказвае на неабходнасць больш глыбокай наладкі і навучання.
Salesforce прыйшла да высновы: нягледзячы на імклівае развіццё ШІ, яго магчымасці ў бізнес-асяроддзі ўсё яшчэ абмежаваныя — асабліва ў рэальных умовах з працяглымі дыялогамі, няпоўнай інфармацыяй і строгімі патрабаваннямі да канфідэнцыйнасці.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
несмотря на стремительное развитие ИИ, его возможности в бизнес-среде все еще ограничены
ололо, а как же новости что через год ИИ заменят все программистов?