Дапамажыце dev.by 🤍
Падтрымаць

ШІ-агенты пакуль дрэнна спраўляюцца з продажамі і абслугоўваннем кліентаў

Кампанія Salesforce прэзентавала новы бэнчмарк CRMArena-Pro, які выявіў сур’ёзныя абмежаванні ў працы ШІ-агентаў ва ўмовах рэальнага бізнесу.

1 каментарый
ШІ-агенты пакуль дрэнна спраўляюцца з продажамі і абслугоўваннем кліентаў

Кампанія Salesforce прэзентавала новы бэнчмарк CRMArena-Pro, які выявіў сур’ёзныя абмежаванні ў працы ШІ-агентаў ва ўмовах рэальнага бізнесу.

CRMArena-Pro распрацаваны для ацэнкі здольнасці вялікіх моўных мадэляў выконваць задачы пры працы з кліентамі (CRM), уключаючы продажы, абслугоўванне і цэнаўтварэнне. У адрозненне ад папярэдняй версіі, новая ўключае 19 відаў бізнес-актыўнасцяў, 4280 задач і тры катэгорыі патрабаванняў па абароне дадзеных.

Salesforce выявіла, што большасць мадэляў не ўмеюць задаваць удакладняючыя пытанні пры недахопе інфармацыі. У 20 прааналізаваных памылках Gemini 2.5 Pro амаль у палове выпадкаў мадэль нават не паспрабавала атрымаць недастаючыя дадзеныя. Мадэлі, схільныя задаваць больш пытанняў, паказалі лепшыя вынікі.

Gemini 2.5 Pro дэманструе найвышэйшыя паказчыкі выканання задач у B2B- і B2C-сцэнарыях з адзіночнымі і шматтуравымі дыялогамі па версіі CRMArena-Pro. Мадэль o3(-pro) ад OpenAI у ацэнцы не ўдзельнічала. Крыніца: Salesforce AI Research.

У задачах аўтаматызацыі, такіх як маршрутызацыя зваротаў у падтрымку, Gemini 2.5 Pro паказаў найвышэйшую дакладнасць — 83%, аднак у сцэнарыях, якія патрабуюць аналізу тэксту або выканання правіл, эфектыўнасць рэзка зніжалася. Нават перадавыя мадэлі дасягаюць толькі 58% паспяховасці пры аднаступеньчатых задачах, а пры шматтуравых дыялогах паказчык падае да 35%.

CRMArena-Pro таксама выявіў слабое выкананне нормаў канфідэнцыйнасці. Па змаўчанні ШІ-агенты практычна не распазнаюць запыты на перадачу персанальных або ўнутраных дадзеных. Толькі пасля яўнага ўказання палітыкі канфідэнцыйнасці ў сістэмных падказках мадэлі пачыналі адмаўляцца ад выканання такіх запытаў — пры гэтым агульная дакладнасць зніжалася.

Напрыклад, у GPT-4o дакладнасць выяўлення канфідэнцыйнай інфармацыі вырасла з 0 да 34,2%, але пры гэтым агульная паспяховасць выканання задач знізілася на 2,7 пункта. Адкрытыя мадэлі накшталт LLaMA-3.1 практычна не рэагавалі на карэкціроўкі ў падказках, што ўказвае на неабходнасць больш глыбокай наладкі і навучання.

Salesforce прыйшла да высновы: нягледзячы на імклівае развіццё ШІ, яго магчымасці ў бізнес-асяроддзі ўсё яшчэ абмежаваныя — асабліва ў рэальных умовах з працяглымі дыялогамі, няпоўнай інфармацыяй і строгімі патрабаваннямі да канфідэнцыйнасці.

ШІ-інструмент для кодэраў ШІ-агент генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
ШІ-інструмент для кодэраў, ШІ-агент, генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
Па тэме
ШІ-інструмент для кодэраў, ШІ-агент, генератары малюнкаў і відэа: галоўныя анонсы Google I/O 2025
Microsoft хоча пабудаваць сетку ШІ-агентаў са сваімі канкурэнтамі
Microsoft хоча пабудаваць сетку ШІ-агентаў са сваімі канкурэнтамі
Па тэме
Microsoft хоча пабудаваць сетку ШІ-агентаў са сваімі канкурэнтамі
Microsoft прэзентавала ШІ-агента які піша код за распрацоўшчыкаў
Microsoft прэзентавала ШІ-агента, які піша код за распрацоўшчыкаў
Па тэме
Microsoft прэзентавала ШІ-агента, які піша код за распрацоўшчыкаў
Чытайце таксама
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

0

несмотря на стремительное развитие ИИ, его возможности в бизнес-среде все еще ограничены

ололо, а как же новости что через год ИИ заменят все программистов?