Если чат-бот начал тупить, не продолжайте диалог — начните новый
Новое исследование Microsoft и Salesforce выявило, что даже самые передовые модели искусственного интеллекта становятся значительно менее надежными по мере увеличения диалога. В среднем производительность систем падала на 39% в таких сценариях.
Новое исследование Microsoft и Salesforce выявило, что даже самые передовые модели искусственного интеллекта становятся значительно менее надежными по мере увеличения диалога. В среднем производительность систем падала на 39% в таких сценариях.
Чтобы смоделировать реальное взаимодействие людей с ИИ-ассистентами, исследователи разработали свой метод тестирования. Вместо того чтобы предоставлять модели всю информацию сразу, они разбивали каждую задачу на более мелкие части, имитируя то, как пользователи обычно уточняют свои запросы в ходе диалога.
Каждый эксперимент включал от 90 до 120 инструкций, разделенных на подзадачи из высококачественных наборов данных. Когда ИИ-модели обрабатывали инструкции по шагам, их точность падала с примерно 90% до всего 51%. Это резкое снижение наблюдалось у всех 15 протестированных моделей, от небольших моделей с открытым исходным кодом, таких как Llama-3.1-8B, до крупных коммерческих систем, таких как GPT-4o.
Даже лучшие модели в исследовании — Claude 3.7 Sonnet, Gemini 2.5 Pro и GPT-4.1 — показали снижение производительности на 30–40% в многоэтапных разговорах по сравнению с одноэтапными запросами. Модели также становились гораздо менее последовательными, а результаты варьировались значительно сильнее, чем при одноразовых взаимодействиях.
Исследователи выделили четыре ключевые проблемы ИИ-систем: модели часто делают поспешные выводы, не имея всех необходимых деталей; они чрезмерно полагаются на свои предыдущие (иногда ошибочные) ответы; игнорируют информацию из середины диалога и создают избыточно подробные ответы, что приводит к неверным предположениям о пробелах в информации.
Команда протестировала несколько технических решений для повышения надежности, например такой как повторение инструкций пользователя агентом. Ни одно из этих изменений не привело к значительным улучшениям. Изменение уровня детализации инструкций на каждом этапе также не сильно улучшило ситуацию. Единственным надежным решением оказалось предоставление всей информации модели сразу в начале.
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.