ИИ-агенты пока плохо справляются с продажами и обслуживанием клиентов
Компания Salesforce представила новый бенчмарк CRMArena-Pro, который выявил серьезные ограничения в работе ИИ-агентов в условиях реального бизнеса.
Компания Salesforce представила новый бенчмарк CRMArena-Pro, который выявил серьезные ограничения в работе ИИ-агентов в условиях реального бизнеса.
Компания Salesforce представила новый бенчмарк CRMArena-Pro, который выявил серьезные ограничения в работе ИИ-агентов в условиях реального бизнеса.
CRMArena-Pro разработан для оценки способности больших языковых моделей выполнять задачи при работе с клиентами (CRM), включая продажи, обслуживание и ценообразование. В отличие от предыдущей версии, новая включает 19 видов бизнес-активностей, 4280 задач и три категории требований по защите данных.
Salesforce обнаружила, что большинство моделей не умеют задавать уточняющие вопросы при недостатке информации. В 20 проанализированных ошибках Gemini 2.5 Pro почти в половине случаев модель даже не попыталась получить недостающие данные. Модели, склонные задавать больше вопросов, показали лучшие результаты.
В задачах автоматизации, таких как маршрутизация обращений в поддержку, Gemini 2.5 Pro показал наивысшую точность — 83%, однако в сценариях, требующих анализа текста или соблюдения правил, эффективность резко снижалась. Даже передовые модели достигают лишь 58% успешности при одноступенчатых задачах, а при многотуровых диалогах показатель падает до 35%.
CRMArena-Pro также выявил слабое соблюдение норм конфиденциальности. По умолчанию ИИ-агенты практически не распознают запросы на передачу персональных или внутренних данных. Только после явного указания политики конфиденциальности в системных подсказках модели начинали отказываться от выполнения таких запросов — при этом общая точность снижалась.
Например, у GPT-4o точность обнаружения конфиденциальной информации выросла с 0 до 34,2%, но при этом общая успешность выполнения задач упала на 2,7 пункта. Открытые модели вроде LLaMA-3.1 практически не реагировали на корректировки в подсказках, что указывает на необходимость более глубокой настройки и обучения.
Salesforce пришла к выводу: несмотря на стремительное развитие ИИ, его возможности в бизнес-среде все еще ограничены — особенно в реальных условиях с продолжительными диалогами, неполной информацией и строгими требованиями к конфиденциальности.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
несмотря на стремительное развитие ИИ, его возможности в бизнес-среде все еще ограничены
ололо, а как же новости что через год ИИ заменят все программистов?