Support us

Если чат-бот начал тупить, не продолжайте диалог — начните новый

Новое исследование Microsoft и Salesforce выявило, что даже самые передовые модели искусственного интеллекта становятся значительно менее надежными по мере увеличения диалога. В среднем производительность систем падала на 39% в таких сценариях.

Оставить комментарий
Если чат-бот начал тупить, не продолжайте диалог — начните новый

Новое исследование Microsoft и Salesforce выявило, что даже самые передовые модели искусственного интеллекта становятся значительно менее надежными по мере увеличения диалога. В среднем производительность систем падала на 39% в таких сценариях.

Чтобы смоделировать реальное взаимодействие людей с ИИ-ассистентами, исследователи разработали свой метод тестирования. Вместо того чтобы предоставлять модели всю информацию сразу, они разбивали каждую задачу на более мелкие части, имитируя то, как пользователи обычно уточняют свои запросы в ходе диалога.

Каждый эксперимент включал от 90 до 120 инструкций, разделенных на подзадачи из высококачественных наборов данных. Когда ИИ-модели обрабатывали инструкции по шагам, их точность падала с примерно 90% до всего 51%. Это резкое снижение наблюдалось у всех 15 протестированных моделей, от небольших моделей с открытым исходным кодом, таких как Llama-3.1-8B, до крупных коммерческих систем, таких как GPT-4o.

Даже лучшие модели в исследовании — Claude 3.7 Sonnet, Gemini 2.5 Pro и GPT-4.1 — показали снижение производительности на 30–40% в многоэтапных разговорах по сравнению с одноэтапными запросами. Модели также становились гораздо менее последовательными, а результаты варьировались значительно сильнее, чем при одноразовых взаимодействиях.

Исследователи выделили четыре ключевые проблемы ИИ-систем: модели часто делают поспешные выводы, не имея всех необходимых деталей; они чрезмерно полагаются на свои предыдущие (иногда ошибочные) ответы; игнорируют информацию из середины диалога и создают избыточно подробные ответы, что приводит к неверным предположениям о пробелах в информации.

Команда протестировала несколько технических решений для повышения надежности, например такой как повторение инструкций пользователя агентом. Ни одно из этих изменений не привело к значительным улучшениям. Изменение уровня детализации инструкций на каждом этапе также не сильно улучшило ситуацию. Единственным надежным решением оказалось предоставление всей информации модели сразу в начале.

Почти половина американских церквей используют ИИ каждая десятая — крипту
Почти половина американских церквей используют ИИ, каждая десятая — крипту
По теме
Почти половина американских церквей используют ИИ, каждая десятая — крипту
Meta теряет таланты: ИИ-команда разбегается по конкурентам
Meta теряет таланты: ИИ-команда разбегается по конкурентам
По теме
Meta теряет таланты: ИИ-команда разбегается по конкурентам
Оказалось что ИИ умеет в эмоциональный интеллект лучше людей
Оказалось, что ИИ умеет в эмоциональный интеллект лучше людей
По теме
Оказалось, что ИИ умеет в эмоциональный интеллект лучше людей
Читайте также
603 млрд токенов за месяц: создатель OpenClaw потратил $1,3 млн на Codex
603 млрд токенов за месяц: создатель OpenClaw потратил $1,3 млн на Codex
603 млрд токенов за месяц: создатель OpenClaw потратил $1,3 млн на Codex
OpenAI дала бесплатную подписку всем жителям одной страны, но c условием
OpenAI дала бесплатную подписку всем жителям одной страны, но c условием
OpenAI дала бесплатную подписку всем жителям одной страны, но c условием
Соискатель с сильным резюме получил 82 отказа и заподозрил ИИ
Соискатель с сильным резюме получил 82 отказа и заподозрил ИИ
Соискатель с сильным резюме получил 82 отказа и заподозрил ИИ
Как компания убедила всех инженеров использовать ИИ без приказов сверху
Как компания убедила всех инженеров использовать ИИ без приказов сверху
Как компания убедила всех инженеров использовать ИИ без приказов сверху

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.