Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

Если чат-бот начал тупить, не продолжайте диалог — начните новый

Новое исследование Microsoft и Salesforce выявило, что даже самые передовые модели искусственного интеллекта становятся значительно менее надежными по мере увеличения диалога. В среднем производительность систем падала на 39% в таких сценариях.

Оставить комментарий
Если чат-бот начал тупить, не продолжайте диалог — начните новый

Новое исследование Microsoft и Salesforce выявило, что даже самые передовые модели искусственного интеллекта становятся значительно менее надежными по мере увеличения диалога. В среднем производительность систем падала на 39% в таких сценариях.

Чтобы смоделировать реальное взаимодействие людей с ИИ-ассистентами, исследователи разработали свой метод тестирования. Вместо того чтобы предоставлять модели всю информацию сразу, они разбивали каждую задачу на более мелкие части, имитируя то, как пользователи обычно уточняют свои запросы в ходе диалога.

Каждый эксперимент включал от 90 до 120 инструкций, разделенных на подзадачи из высококачественных наборов данных. Когда ИИ-модели обрабатывали инструкции по шагам, их точность падала с примерно 90% до всего 51%. Это резкое снижение наблюдалось у всех 15 протестированных моделей, от небольших моделей с открытым исходным кодом, таких как Llama-3.1-8B, до крупных коммерческих систем, таких как GPT-4o.

Даже лучшие модели в исследовании — Claude 3.7 Sonnet, Gemini 2.5 Pro и GPT-4.1 — показали снижение производительности на 30–40% в многоэтапных разговорах по сравнению с одноэтапными запросами. Модели также становились гораздо менее последовательными, а результаты варьировались значительно сильнее, чем при одноразовых взаимодействиях.

Исследователи выделили четыре ключевые проблемы ИИ-систем: модели часто делают поспешные выводы, не имея всех необходимых деталей; они чрезмерно полагаются на свои предыдущие (иногда ошибочные) ответы; игнорируют информацию из середины диалога и создают избыточно подробные ответы, что приводит к неверным предположениям о пробелах в информации.

Команда протестировала несколько технических решений для повышения надежности, например такой как повторение инструкций пользователя агентом. Ни одно из этих изменений не привело к значительным улучшениям. Изменение уровня детализации инструкций на каждом этапе также не сильно улучшило ситуацию. Единственным надежным решением оказалось предоставление всей информации модели сразу в начале.

Почти половина американских церквей используют ИИ каждая десятая — крипту
Почти половина американских церквей используют ИИ, каждая десятая — крипту
По теме
Почти половина американских церквей используют ИИ, каждая десятая — крипту
Meta теряет таланты: ИИ-команда разбегается по конкурентам
Meta теряет таланты: ИИ-команда разбегается по конкурентам
По теме
Meta теряет таланты: ИИ-команда разбегается по конкурентам
Оказалось что ИИ умеет в эмоциональный интеллект лучше людей
Оказалось, что ИИ умеет в эмоциональный интеллект лучше людей
По теме
Оказалось, что ИИ умеет в эмоциональный интеллект лучше людей
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем
Для появления сверхразумного ИИ не хватает лишь одной детали
Для появления сверхразумного ИИ не хватает лишь одной детали
Для появления сверхразумного ИИ не хватает лишь одной детали
3 комментария
Как разработчику выжить в эпоху ИИ — советы инженера Microsoft
Как разработчику выжить в эпоху ИИ — советы инженера Microsoft
Как разработчику выжить в эпоху ИИ — советы инженера Microsoft
Популярный фреймворк Tailwind уволил всех инженеров, кроме одного — из-за ИИ
Популярный фреймворк Tailwind уволил всех инженеров, кроме одного — из-за ИИ
Популярный фреймворк Tailwind уволил всех инженеров, кроме одного — из-за ИИ
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.