Support us

Если чат-бот начал тупить, не продолжайте диалог — начните новый

Новое исследование Microsoft и Salesforce выявило, что даже самые передовые модели искусственного интеллекта становятся значительно менее надежными по мере увеличения диалога. В среднем производительность систем падала на 39% в таких сценариях.

Оставить комментарий
Если чат-бот начал тупить, не продолжайте диалог — начните новый

Новое исследование Microsoft и Salesforce выявило, что даже самые передовые модели искусственного интеллекта становятся значительно менее надежными по мере увеличения диалога. В среднем производительность систем падала на 39% в таких сценариях.

Чтобы смоделировать реальное взаимодействие людей с ИИ-ассистентами, исследователи разработали свой метод тестирования. Вместо того чтобы предоставлять модели всю информацию сразу, они разбивали каждую задачу на более мелкие части, имитируя то, как пользователи обычно уточняют свои запросы в ходе диалога.

Каждый эксперимент включал от 90 до 120 инструкций, разделенных на подзадачи из высококачественных наборов данных. Когда ИИ-модели обрабатывали инструкции по шагам, их точность падала с примерно 90% до всего 51%. Это резкое снижение наблюдалось у всех 15 протестированных моделей, от небольших моделей с открытым исходным кодом, таких как Llama-3.1-8B, до крупных коммерческих систем, таких как GPT-4o.

Даже лучшие модели в исследовании — Claude 3.7 Sonnet, Gemini 2.5 Pro и GPT-4.1 — показали снижение производительности на 30–40% в многоэтапных разговорах по сравнению с одноэтапными запросами. Модели также становились гораздо менее последовательными, а результаты варьировались значительно сильнее, чем при одноразовых взаимодействиях.

Исследователи выделили четыре ключевые проблемы ИИ-систем: модели часто делают поспешные выводы, не имея всех необходимых деталей; они чрезмерно полагаются на свои предыдущие (иногда ошибочные) ответы; игнорируют информацию из середины диалога и создают избыточно подробные ответы, что приводит к неверным предположениям о пробелах в информации.

Команда протестировала несколько технических решений для повышения надежности, например такой как повторение инструкций пользователя агентом. Ни одно из этих изменений не привело к значительным улучшениям. Изменение уровня детализации инструкций на каждом этапе также не сильно улучшило ситуацию. Единственным надежным решением оказалось предоставление всей информации модели сразу в начале.

Почти половина американских церквей используют ИИ каждая десятая — крипту
Почти половина американских церквей используют ИИ, каждая десятая — крипту
По теме
Почти половина американских церквей используют ИИ, каждая десятая — крипту
Meta теряет таланты: ИИ-команда разбегается по конкурентам
Meta теряет таланты: ИИ-команда разбегается по конкурентам
По теме
Meta теряет таланты: ИИ-команда разбегается по конкурентам
Оказалось что ИИ умеет в эмоциональный интеллект лучше людей
Оказалось, что ИИ умеет в эмоциональный интеллект лучше людей
По теме
Оказалось, что ИИ умеет в эмоциональный интеллект лучше людей
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity. 
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.