Дапамажыце dev.by 🤍
Падтрымаць

ШІ-агенты пакуль дрэнна спраўляюцца з продажамі і абслугоўваннем кліентаў

Кампанія Salesforce прэзентавала новы бэнчмарк CRMArena-Pro, які выявіў сур’ёзныя абмежаванні ў працы ШІ-агентаў ва ўмовах рэальнага бізнесу.

1 каментарый
ШІ-агенты пакуль дрэнна спраўляюцца з продажамі і абслугоўваннем кліентаў

Кампанія Salesforce прэзентавала новы бэнчмарк CRMArena-Pro, які выявіў сур’ёзныя абмежаванні ў працы ШІ-агентаў ва ўмовах рэальнага бізнесу.

CRMArena-Pro распрацаваны для ацэнкі здольнасці вялікіх моўных мадэляў выконваць задачы пры працы з кліентамі (CRM), уключаючы продажы, абслугоўванне і цэнаўтварэнне. У адрозненне ад папярэдняй версіі, новая ўключае 19 відаў бізнес-актыўнасцяў, 4280 задач і тры катэгорыі патрабаванняў па абароне дадзеных.

Salesforce выявіла, што большасць мадэляў не ўмеюць задаваць удакладняючыя пытанні пры недахопе інфармацыі. У 20 прааналізаваных памылках Gemini 2.5 Pro амаль у палове выпадкаў мадэль нават не паспрабавала атрымаць недастаючыя дадзеныя. Мадэлі, схільныя задаваць больш пытанняў, паказалі лепшыя вынікі.

Gemini 2.5 Pro дэманструе найвышэйшыя паказчыкі выканання задач у B2B- і B2C-сцэнарыях з адзіночнымі і шматтуравымі дыялогамі па версіі CRMArena-Pro. Мадэль o3(-pro) ад OpenAI у ацэнцы не ўдзельнічала. Крыніца: Salesforce AI Research.

У задачах аўтаматызацыі, такіх як маршрутызацыя зваротаў у падтрымку, Gemini 2.5 Pro паказаў найвышэйшую дакладнасць — 83%, аднак у сцэнарыях, якія патрабуюць аналізу тэксту або выканання правіл, эфектыўнасць рэзка зніжалася. Нават перадавыя мадэлі дасягаюць толькі 58% паспяховасці пры аднаступеньчатых задачах, а пры шматтуравых дыялогах паказчык падае да 35%.

CRMArena-Pro таксама выявіў слабое выкананне нормаў канфідэнцыйнасці. Па змаўчанні ШІ-агенты практычна не распазнаюць запыты на перадачу персанальных або ўнутраных дадзеных. Толькі пасля яўнага ўказання палітыкі канфідэнцыйнасці ў сістэмных падказках мадэлі пачыналі адмаўляцца ад выканання такіх запытаў — пры гэтым агульная дакладнасць зніжалася.

Напрыклад, у GPT-4o дакладнасць выяўлення канфідэнцыйнай інфармацыі вырасла з 0 да 34,2%, але пры гэтым агульная паспяховасць выканання задач знізілася на 2,7 пункта. Адкрытыя мадэлі накшталт LLaMA-3.1 практычна не рэагавалі на карэкціроўкі ў падказках, што ўказвае на неабходнасць больш глыбокай наладкі і навучання.

Salesforce прыйшла да высновы: нягледзячы на імклівае развіццё ШІ, яго магчымасці ў бізнес-асяроддзі ўсё яшчэ абмежаваныя — асабліва ў рэальных умовах з працяглымі дыялогамі, няпоўнай інфармацыяй і строгімі патрабаваннямі да канфідэнцыйнасці.

ШІ-інструмент для кодэраў ШІ-агент генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
ШІ-інструмент для кодэраў, ШІ-агент, генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
Па тэме
ШІ-інструмент для кодэраў, ШІ-агент, генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
Microsoft хоча пабудаваць сетку ШІ-агентаў са сваімі канкурэнтамі
Microsoft хоча пабудаваць сетку ШІ-агентаў са сваімі канкурэнтамі
Па тэме
Microsoft хоча пабудаваць сетку ШІ-агентаў са сваімі канкурэнтамі
Microsoft прэзентавала ШІ-агента які піша код за распрацоўшчыкаў
Microsoft прэзентавала ШІ-агента, які піша код за распрацоўшчыкаў
Па тэме
Microsoft прэзентавала ШІ-агента, які піша код за распрацоўшчыкаў
Чытайце таксама
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

0

несмотря на стремительное развитие ИИ, его возможности в бизнес-среде все еще ограничены

ололо, а как же новости что через год ИИ заменят все программистов?