Дапамажыце dev.by 🤍
Падтрымаць

ШІ-агенты пакуль дрэнна спраўляюцца з продажамі і абслугоўваннем кліентаў

Кампанія Salesforce прэзентавала новы бэнчмарк CRMArena-Pro, які выявіў сур’ёзныя абмежаванні ў працы ШІ-агентаў ва ўмовах рэальнага бізнесу.

1 каментарый
ШІ-агенты пакуль дрэнна спраўляюцца з продажамі і абслугоўваннем кліентаў

Кампанія Salesforce прэзентавала новы бэнчмарк CRMArena-Pro, які выявіў сур’ёзныя абмежаванні ў працы ШІ-агентаў ва ўмовах рэальнага бізнесу.

CRMArena-Pro распрацаваны для ацэнкі здольнасці вялікіх моўных мадэляў выконваць задачы пры працы з кліентамі (CRM), уключаючы продажы, абслугоўванне і цэнаўтварэнне. У адрозненне ад папярэдняй версіі, новая ўключае 19 відаў бізнес-актыўнасцяў, 4280 задач і тры катэгорыі патрабаванняў па абароне дадзеных.

Salesforce выявіла, што большасць мадэляў не ўмеюць задаваць удакладняючыя пытанні пры недахопе інфармацыі. У 20 прааналізаваных памылках Gemini 2.5 Pro амаль у палове выпадкаў мадэль нават не паспрабавала атрымаць недастаючыя дадзеныя. Мадэлі, схільныя задаваць больш пытанняў, паказалі лепшыя вынікі.

Gemini 2.5 Pro дэманструе найвышэйшыя паказчыкі выканання задач у B2B- і B2C-сцэнарыях з адзіночнымі і шматтуравымі дыялогамі па версіі CRMArena-Pro. Мадэль o3(-pro) ад OpenAI у ацэнцы не ўдзельнічала. Крыніца: Salesforce AI Research.

У задачах аўтаматызацыі, такіх як маршрутызацыя зваротаў у падтрымку, Gemini 2.5 Pro паказаў найвышэйшую дакладнасць — 83%, аднак у сцэнарыях, якія патрабуюць аналізу тэксту або выканання правіл, эфектыўнасць рэзка зніжалася. Нават перадавыя мадэлі дасягаюць толькі 58% паспяховасці пры аднаступеньчатых задачах, а пры шматтуравых дыялогах паказчык падае да 35%.

CRMArena-Pro таксама выявіў слабое выкананне нормаў канфідэнцыйнасці. Па змаўчанні ШІ-агенты практычна не распазнаюць запыты на перадачу персанальных або ўнутраных дадзеных. Толькі пасля яўнага ўказання палітыкі канфідэнцыйнасці ў сістэмных падказках мадэлі пачыналі адмаўляцца ад выканання такіх запытаў — пры гэтым агульная дакладнасць зніжалася.

Напрыклад, у GPT-4o дакладнасць выяўлення канфідэнцыйнай інфармацыі вырасла з 0 да 34,2%, але пры гэтым агульная паспяховасць выканання задач знізілася на 2,7 пункта. Адкрытыя мадэлі накшталт LLaMA-3.1 практычна не рэагавалі на карэкціроўкі ў падказках, што ўказвае на неабходнасць больш глыбокай наладкі і навучання.

Salesforce прыйшла да высновы: нягледзячы на імклівае развіццё ШІ, яго магчымасці ў бізнес-асяроддзі ўсё яшчэ абмежаваныя — асабліва ў рэальных умовах з працяглымі дыялогамі, няпоўнай інфармацыяй і строгімі патрабаваннямі да канфідэнцыйнасці.

ШІ-інструмент для кодэраў ШІ-агент генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
ШІ-інструмент для кодэраў, ШІ-агент, генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
Па тэме
ШІ-інструмент для кодэраў, ШІ-агент, генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
Microsoft хоча пабудаваць сетку ШІ-агентаў са сваімі канкурэнтамі
Microsoft хоча пабудаваць сетку ШІ-агентаў са сваімі канкурэнтамі
Па тэме
Microsoft хоча пабудаваць сетку ШІ-агентаў са сваімі канкурэнтамі
Microsoft прэзентавала ШІ-агента які піша код за распрацоўшчыкаў
Microsoft прэзентавала ШІ-агента, які піша код за распрацоўшчыкаў
Па тэме
Microsoft прэзентавала ШІ-агента, які піша код за распрацоўшчыкаў
Чытайце таксама
ШІ-браўзэр OpenAI можна лёгка падмануць з дапамогай схаваных промптаў
ШІ-браўзэр OpenAI можна лёгка падмануць з дапамогай схаваных промптаў
ШІ-браўзэр OpenAI можна лёгка падмануць з дапамогай схаваных промптаў
Нейрасеткі
Нейрасеткі "дурнеюць", калі харчуюцца смецевым кантэнтам — эфект незваротны
Нейрасеткі "дурнеюць", калі харчуюцца смецевым кантэнтам — эфект незваротны
1 каментарый
Сузаснавальнік LinkedIn назваў «сляпую зону» для інвестараў
Сузаснавальнік LinkedIn назваў «сляпую зону» для інвестараў
Сузаснавальнік LinkedIn назваў «сляпую зону» для інвестараў
Карыстальнікі ChatGPT скардзяцца на выпадкі «ШІ-псіхозу»
Карыстальнікі ChatGPT скардзяцца на выпадкі «ШІ-псіхозу»
Карыстальнікі ChatGPT скардзяцца на выпадкі «ШІ-псіхозу»

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

0

несмотря на стремительное развитие ИИ, его возможности в бизнес-среде все еще ограничены

ололо, а как же новости что через год ИИ заменят все программистов?