200 инженеров в Варшаве обсуждают дыры в пайплайнах. Без вас?
Support us

Если чат-бот начал тупить, не продолжайте диалог — начните новый

Новое исследование Microsoft и Salesforce выявило, что даже самые передовые модели искусственного интеллекта становятся значительно менее надежными по мере увеличения диалога. В среднем производительность систем падала на 39% в таких сценариях.

Оставить комментарий
Если чат-бот начал тупить, не продолжайте диалог — начните новый

Новое исследование Microsoft и Salesforce выявило, что даже самые передовые модели искусственного интеллекта становятся значительно менее надежными по мере увеличения диалога. В среднем производительность систем падала на 39% в таких сценариях.

Чтобы смоделировать реальное взаимодействие людей с ИИ-ассистентами, исследователи разработали свой метод тестирования. Вместо того чтобы предоставлять модели всю информацию сразу, они разбивали каждую задачу на более мелкие части, имитируя то, как пользователи обычно уточняют свои запросы в ходе диалога.

Каждый эксперимент включал от 90 до 120 инструкций, разделенных на подзадачи из высококачественных наборов данных. Когда ИИ-модели обрабатывали инструкции по шагам, их точность падала с примерно 90% до всего 51%. Это резкое снижение наблюдалось у всех 15 протестированных моделей, от небольших моделей с открытым исходным кодом, таких как Llama-3.1-8B, до крупных коммерческих систем, таких как GPT-4o.

Даже лучшие модели в исследовании — Claude 3.7 Sonnet, Gemini 2.5 Pro и GPT-4.1 — показали снижение производительности на 30–40% в многоэтапных разговорах по сравнению с одноэтапными запросами. Модели также становились гораздо менее последовательными, а результаты варьировались значительно сильнее, чем при одноразовых взаимодействиях.

Исследователи выделили четыре ключевые проблемы ИИ-систем: модели часто делают поспешные выводы, не имея всех необходимых деталей; они чрезмерно полагаются на свои предыдущие (иногда ошибочные) ответы; игнорируют информацию из середины диалога и создают избыточно подробные ответы, что приводит к неверным предположениям о пробелах в информации.

Команда протестировала несколько технических решений для повышения надежности, например такой как повторение инструкций пользователя агентом. Ни одно из этих изменений не привело к значительным улучшениям. Изменение уровня детализации инструкций на каждом этапе также не сильно улучшило ситуацию. Единственным надежным решением оказалось предоставление всей информации модели сразу в начале.

Почти половина американских церквей используют ИИ каждая десятая — крипту
Почти половина американских церквей используют ИИ, каждая десятая — крипту
По теме
Почти половина американских церквей используют ИИ, каждая десятая — крипту
Meta теряет таланты: ИИ-команда разбегается по конкурентам
Meta теряет таланты: ИИ-команда разбегается по конкурентам
По теме
Meta теряет таланты: ИИ-команда разбегается по конкурентам
Оказалось что ИИ умеет в эмоциональный интеллект лучше людей
Оказалось, что ИИ умеет в эмоциональный интеллект лучше людей
По теме
Оказалось, что ИИ умеет в эмоциональный интеллект лучше людей
Читайте также
Топ Amazon нанимает и повышает сотрудников по тому, как они используют ИИ
Топ Amazon нанимает и повышает сотрудников по тому, как они используют ИИ
Топ Amazon нанимает и повышает сотрудников по тому, как они используют ИИ
OpenAI представила ИИ-агента для поиска и исправления уязвимостей в коде
OpenAI представила ИИ-агента для поиска и исправления уязвимостей в коде
OpenAI представила ИИ-агента для поиска и исправления уязвимостей в коде
ИИ-поисковик Google будет копаться в вашей почте и файлах — ради вас самих
ИИ-поисковик Google будет копаться в вашей почте и файлах — ради вас самих
ИИ-поисковик Google будет копаться в вашей почте и файлах — ради вас самих
Youtube удаляет ролики без объяснений. Блогеры подозревают ИИ
Youtube удаляет ролики без объяснений. Блогеры подозревают ИИ
Youtube удаляет ролики без объяснений. Блогеры подозревают ИИ

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.