Дапамажыце dev.by 🤍
Падтрымаць

ШІ-агенты пакуль дрэнна спраўляюцца з продажамі і абслугоўваннем кліентаў

Кампанія Salesforce прэзентавала новы бэнчмарк CRMArena-Pro, які выявіў сур’ёзныя абмежаванні ў працы ШІ-агентаў ва ўмовах рэальнага бізнесу.

1 каментарый
ШІ-агенты пакуль дрэнна спраўляюцца з продажамі і абслугоўваннем кліентаў

Кампанія Salesforce прэзентавала новы бэнчмарк CRMArena-Pro, які выявіў сур’ёзныя абмежаванні ў працы ШІ-агентаў ва ўмовах рэальнага бізнесу.

CRMArena-Pro распрацаваны для ацэнкі здольнасці вялікіх моўных мадэляў выконваць задачы пры працы з кліентамі (CRM), уключаючы продажы, абслугоўванне і цэнаўтварэнне. У адрозненне ад папярэдняй версіі, новая ўключае 19 відаў бізнес-актыўнасцяў, 4280 задач і тры катэгорыі патрабаванняў па абароне дадзеных.

Salesforce выявіла, што большасць мадэляў не ўмеюць задаваць удакладняючыя пытанні пры недахопе інфармацыі. У 20 прааналізаваных памылках Gemini 2.5 Pro амаль у палове выпадкаў мадэль нават не паспрабавала атрымаць недастаючыя дадзеныя. Мадэлі, схільныя задаваць больш пытанняў, паказалі лепшыя вынікі.

Gemini 2.5 Pro дэманструе найвышэйшыя паказчыкі выканання задач у B2B- і B2C-сцэнарыях з адзіночнымі і шматтуравымі дыялогамі па версіі CRMArena-Pro. Мадэль o3(-pro) ад OpenAI у ацэнцы не ўдзельнічала. Крыніца: Salesforce AI Research.

У задачах аўтаматызацыі, такіх як маршрутызацыя зваротаў у падтрымку, Gemini 2.5 Pro паказаў найвышэйшую дакладнасць — 83%, аднак у сцэнарыях, якія патрабуюць аналізу тэксту або выканання правіл, эфектыўнасць рэзка зніжалася. Нават перадавыя мадэлі дасягаюць толькі 58% паспяховасці пры аднаступеньчатых задачах, а пры шматтуравых дыялогах паказчык падае да 35%.

CRMArena-Pro таксама выявіў слабое выкананне нормаў канфідэнцыйнасці. Па змаўчанні ШІ-агенты практычна не распазнаюць запыты на перадачу персанальных або ўнутраных дадзеных. Толькі пасля яўнага ўказання палітыкі канфідэнцыйнасці ў сістэмных падказках мадэлі пачыналі адмаўляцца ад выканання такіх запытаў — пры гэтым агульная дакладнасць зніжалася.

Напрыклад, у GPT-4o дакладнасць выяўлення канфідэнцыйнай інфармацыі вырасла з 0 да 34,2%, але пры гэтым агульная паспяховасць выканання задач знізілася на 2,7 пункта. Адкрытыя мадэлі накшталт LLaMA-3.1 практычна не рэагавалі на карэкціроўкі ў падказках, што ўказвае на неабходнасць больш глыбокай наладкі і навучання.

Salesforce прыйшла да высновы: нягледзячы на імклівае развіццё ШІ, яго магчымасці ў бізнес-асяроддзі ўсё яшчэ абмежаваныя — асабліва ў рэальных умовах з працяглымі дыялогамі, няпоўнай інфармацыяй і строгімі патрабаваннямі да канфідэнцыйнасці.

ШІ-інструмент для кодэраў ШІ-агент генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
ШІ-інструмент для кодэраў, ШІ-агент, генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
Па тэме
ШІ-інструмент для кодэраў, ШІ-агент, генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
Microsoft хоча пабудаваць сетку ШІ-агентаў са сваімі канкурэнтамі
Microsoft хоча пабудаваць сетку ШІ-агентаў са сваімі канкурэнтамі
Па тэме
Microsoft хоча пабудаваць сетку ШІ-агентаў са сваімі канкурэнтамі
Microsoft прэзентавала ШІ-агента які піша код за распрацоўшчыкаў
Microsoft прэзентавала ШІ-агента, які піша код за распрацоўшчыкаў
Па тэме
Microsoft прэзентавала ШІ-агента, які піша код за распрацоўшчыкаў
Чытайце таксама
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
«Яна выратавала мне жыццё»: OpenAI адключае GPT-4o — карыстальнікі ўзбунтаваліся
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
Кампаніі рызыкуюць стаць «машынамі для выгарання» з-за ШІ — даследаванне
Генеральны дырэктар Salesforce пажартаваў пра сачэнне міграцыйнай службы, раззлаваў супрацоўнікаў
Генеральны дырэктар Salesforce пажартаваў пра сачэнне міграцыйнай службы, раззлаваў супрацоўнікаў
Генеральны дырэктар Salesforce пажартаваў пра сачэнне міграцыйнай службы, раззлаваў супрацоўнікаў
2 каментарыя
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст
«Мір у небяспецы»: кіраўнік каманды бяспекі Anthropic звольніўся і пакінуў загадкавы ліст

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

несмотря на стремительное развитие ИИ, его возможности в бизнес-среде все еще ограничены

ололо, а как же новости что через год ИИ заменят все программистов?