🚀 Идем на ежегодный Cloud Security TechSpot в Варшаве
Support us

Больше не значит лучше: лишние токены ухудшают ответы ИИ

Новое исследование Microsoft Research выявило ключевые ограничения в возможностях рассуждений больших языковых моделей при масштабировании вывода. Оказалось, что большие вычислительные ресурсы не всегда приводят к лучшим результатам.

Оставить комментарий
Больше не значит лучше: лишние токены ухудшают ответы ИИ

Новое исследование Microsoft Research выявило ключевые ограничения в возможностях рассуждений больших языковых моделей при масштабировании вывода. Оказалось, что большие вычислительные ресурсы не всегда приводят к лучшим результатам.

Масштабирование во время вывода предполагает выделение дополнительных вычислительных ресурсов на этапе вывода модели для улучшения рассуждений по сложным задачам. Команда Microsoft протестировала девять ведущих ИИ-моделей, включая GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro, o1 от OpenAI и DeepSeek R1, с использованием трех методов масштабирования: цепочка рассуждений (Chain-of-Thought, CoT), параллельное масштабирование и последовательное масштабирование.

Эти методы оценивались на восьми сложных тестовых наборах данных, включая математические рассуждения (AIME, Omni-MATH), планирование (BA-Calendar) и NP-трудные задачи (3SAT, TSP). Исследование показало, что преимущества методов масштабирования во время вывода не являются универсальными. Хотя модели, специально настроенные для рассуждений, в целом превосходили обычные, степень их улучшения сильно зависела от типа задачи и используемой модели.

Например, успехи в математических задачах не всегда переносились на задачи планирования или научных рассуждений, а прирост производительности часто снижался по мере усложнения задач. Значительная вариативность в использовании токенов также стала важным наблюдением. Даже при схожей точности разные модели потребляли существенно разное количество токенов. Например, на тесте AIME 2025 по математике DeepSeek R1 использовал в пять раз больше токенов, чем Claude 3.7 Sonnet, несмотря на сопоставимые результаты.

Вопреки распространенному мнению, более длинные цепочки рассуждений не всегда означали улучшение качества ответов. Ученые пришли к выводу, что избыточная генерация токенов может быть признаком того, что модель испытывает трудности, а не углубляет свои рассуждения. Более того, сравнение моделей показало, что высокий расход токенов не обязательно коррелирует с более высокой точностью, что говорит о необходимости более целенаправленных подходов к масштабированию.

Наконец, исследование показало, что обычные модели, такие как GPT-4o, при значительном увеличении числа вызовов вывода (до 50 раз) могли приближаться к производительности моделей, настроенных на рассуждения, особенно на более простых задачах. Однако этот подход терял эффективность при решении сложных задач, что указывает на ограничения метода «грубой силы» в масштабировании.

Трамп хочет заблокировать DeepSeek и давит на Nvidia. Чипмейкер потеряет $55 млрд акции падают
Трамп хочет заблокировать DeepSeek и давит на Nvidia. Чипмейкер потеряет $5,5 млрд, акции падают
По теме
Трамп хочет заблокировать DeepSeek и давит на Nvidia. Чипмейкер потеряет $5,5 млрд, акции падают
Гейтс назвал две профессии где ИИ вытеснит людей — считалось что они неуязвимы
Гейтс назвал две профессии, где ИИ вытеснит людей — считалось, что они неуязвимы
По теме
Гейтс назвал две профессии, где ИИ вытеснит людей — считалось, что они неуязвимы
В Китае прокатилась волна преждевременных смертей среди ИИ-исследователей
В Китае прокатилась волна преждевременных смертей среди ИИ-исследователей
По теме
В Китае прокатилась волна преждевременных смертей среди ИИ-исследователей
Читайте также
«Перепрошивка всего бизнеса»: CEO Microsoft дал совет гендиректорам на эпоху ИИ
«Перепрошивка всего бизнеса»: CEO Microsoft дал совет гендиректорам на эпоху ИИ
«Перепрошивка всего бизнеса»: CEO Microsoft дал совет гендиректорам на эпоху ИИ
«Пузырь? Неа, не слышали». Бигтехи сказали, что продолжат безумно тратиться на ИИ
«Пузырь? Неа, не слышали». Бигтехи сказали, что продолжат безумно тратиться на ИИ
«Пузырь? Неа, не слышали». Бигтехи сказали, что продолжат безумно тратиться на ИИ
1 комментарий
Разработка ПО победила в списке профессий, которые сильнее всего изменит генеративный ИИ
Разработка ПО победила в списке профессий, которые сильнее всего изменит генеративный ИИ
Разработка ПО победила в списке профессий, которые сильнее всего изменит генеративный ИИ
Беларусам будут лечить зубы с помощью ИИ
Беларусам будут лечить зубы с помощью ИИ
Беларусам будут лечить зубы с помощью ИИ

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.