Support us

ИИ-агенты пока плохо справляются с продажами и обслуживанием клиентов

Компания Salesforce представила новый бенчмарк CRMArena-Pro, который выявил серьезные ограничения в работе ИИ-агентов в условиях реального бизнеса.

1 комментарий
ИИ-агенты пока плохо справляются с продажами и обслуживанием клиентов

Компания Salesforce представила новый бенчмарк CRMArena-Pro, который выявил серьезные ограничения в работе ИИ-агентов в условиях реального бизнеса.

CRMArena-Pro разработан для оценки способности больших языковых моделей выполнять задачи при работе с клиентами (CRM), включая продажи, обслуживание и ценообразование. В отличие от предыдущей версии, новая включает 19 видов бизнес-активностей, 4280 задач и три категории требований по защите данных.

Salesforce обнаружила, что большинство моделей не умеют задавать уточняющие вопросы при недостатке информации. В 20 проанализированных ошибках Gemini 2.5 Pro почти в половине случаев модель даже не попыталась получить недостающие данные. Модели, склонные задавать больше вопросов, показали лучшие результаты.

Gemini 2.5 Pro демонстрирует наивысшие показатели выполнения задач в B2B- и B2C-сценариях с одиночными и многотуровыми диалогами по версии CRMArena-Pro. Модель o3(-pro) от OpenAI в оценке не участвовала. Источник: Salesforce AI Research.

В задачах автоматизации, таких как маршрутизация обращений в поддержку, Gemini 2.5 Pro показал наивысшую точность — 83%, однако в сценариях, требующих анализа текста или соблюдения правил, эффективность резко снижалась. Даже передовые модели достигают лишь 58% успешности при одноступенчатых задачах, а при многотуровых диалогах показатель падает до 35%.

CRMArena-Pro также выявил слабое соблюдение норм конфиденциальности. По умолчанию ИИ-агенты практически не распознают запросы на передачу персональных или внутренних данных. Только после явного указания политики конфиденциальности в системных подсказках модели начинали отказываться от выполнения таких запросов — при этом общая точность снижалась.

Например, у GPT-4o точность обнаружения конфиденциальной информации выросла с 0 до 34,2%, но при этом общая успешность выполнения задач упала на 2,7 пункта. Открытые модели вроде LLaMA-3.1 практически не реагировали на корректировки в подсказках, что указывает на необходимость более глубокой настройки и обучения.

Salesforce пришла к выводу: несмотря на стремительное развитие ИИ, его возможности в бизнес-среде все еще ограничены — особенно в реальных условиях с продолжительными диалогами, неполной информацией и строгими требованиями к конфиденциальности.

ИИ-инструмент для кодеров ИИ-агент генераторы картинок и видео: главные анонсы Google I/O 2025
ИИ-инструмент для кодеров, ИИ-агент, генераторы картинок и видео: главные анонсы Google I/O 2025
По теме
ИИ-инструмент для кодеров, ИИ-агент, генераторы картинок и видео: главные анонсы Google I/O 2025
Microsoft хочет построить сеть ИИ-агентов со своими конкурентами
Microsoft хочет построить сеть ИИ-агентов со своими конкурентами
По теме
Microsoft хочет построить сеть ИИ-агентов со своими конкурентами
Microsoft представила ИИ-агента который пишет код за разработчиков
Microsoft представила ИИ-агента, который пишет код за разработчиков
По теме
Microsoft представила ИИ-агента, который пишет код за разработчиков
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

несмотря на стремительное развитие ИИ, его возможности в бизнес-среде все еще ограничены

ололо, а как же новости что через год ИИ заменят все программистов?