Николай Чикишев world 16 июня 2025, 14:07

ИИ-агенты пока плохо справляются с продажами и обслуживанием клиентов

Компания Salesforce представила новый бенчмарк CRMArena-Pro, который выявил серьезные ограничения в работе ИИ-агентов в условиях реального бизнеса.

1 комментарий

ИИ-агенты пока плохо справляются с продажами и обслуживанием клиентов

Компания Salesforce представила новый бенчмарк CRMArena-Pro, который выявил серьезные ограничения в работе ИИ-агентов в условиях реального бизнеса.

CRMArena-Pro разработан для оценки способности больших языковых моделей выполнять задачи при работе с клиентами (CRM), включая продажи, обслуживание и ценообразование. В отличие от предыдущей версии, новая включает 19 видов бизнес-активностей, 4280 задач и три категории требований по защите данных.

Salesforce обнаружила, что большинство моделей не умеют задавать уточняющие вопросы при недостатке информации. В 20 проанализированных ошибках Gemini 2.5 Pro почти в половине случаев модель даже не попыталась получить недостающие данные. Модели, склонные задавать больше вопросов, показали лучшие результаты.

Gemini 2.5 Pro демонстрирует наивысшие показатели выполнения задач в B2B- и B2C-сценариях с одиночными и многотуровыми диалогами по версии CRMArena-Pro. Модель o3(-pro) от OpenAI в оценке не участвовала. Источник: Salesforce AI Research.

В задачах автоматизации, таких как маршрутизация обращений в поддержку, Gemini 2.5 Pro показал наивысшую точность — 83%, однако в сценариях, требующих анализа текста или соблюдения правил, эффективность резко снижалась. Даже передовые модели достигают лишь 58% успешности при одноступенчатых задачах, а при многотуровых диалогах показатель падает до 35%.

CRMArena-Pro также выявил слабое соблюдение норм конфиденциальности. По умолчанию ИИ-агенты практически не распознают запросы на передачу персональных или внутренних данных. Только после явного указания политики конфиденциальности в системных подсказках модели начинали отказываться от выполнения таких запросов — при этом общая точность снижалась.

Например, у GPT-4o точность обнаружения конфиденциальной информации выросла с 0 до 34,2%, но при этом общая успешность выполнения задач упала на 2,7 пункта. Открытые модели вроде LLaMA-3.1 практически не реагировали на корректировки в подсказках, что указывает на необходимость более глубокой настройки и обучения.

Salesforce пришла к выводу: несмотря на стремительное развитие ИИ, его возможности в бизнес-среде все еще ограничены — особенно в реальных условиях с продолжительными диалогами, неполной информацией и строгими требованиями к конфиденциальности.