Больше не значит лучше: лишние токены ухудшают ответы ИИ
Новое исследование Microsoft Research выявило ключевые ограничения в возможностях рассуждений больших языковых моделей при масштабировании вывода. Оказалось, что большие вычислительные ресурсы не всегда приводят к лучшим результатам.
Масштабирование во время вывода предполагает выделение дополнительных вычислительных ресурсов на этапе вывода модели для улучшения рассуждений по сложным задачам. Команда Microsoft протестировала девять ведущих ИИ-моделей, включая GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro, o1 от OpenAI и DeepSeek R1, с использованием трех методов масштабирования: цепочка рассуждений (Chain-of-Thought, CoT), параллельное масштабирование и последовательное масштабирование.
Эти методы оценивались на восьми сложных тестовых наборах данных, включая математические рассуждения (AIME, Omni-MATH), планирование (BA-Calendar) и NP-трудные задачи (3SAT, TSP). Исследование показало, что преимущества методов масштабирования во время вывода не являются универсальными. Хотя модели, специально настроенные для рассуждений, в целом превосходили обычные, степень их улучшения сильно зависела от типа задачи и используемой модели.
Например, успехи в математических задачах не всегда переносились на задачи планирования или научных рассуждений, а прирост производительности часто снижался по мере усложнения задач. Значительная вариативность в использовании токенов также стала важным наблюдением. Даже при схожей точности разные модели потребляли существенно разное количество токенов. Например, на тесте AIME 2025 по математике DeepSeek R1 использовал в пять раз больше токенов, чем Claude 3.7 Sonnet, несмотря на сопоставимые результаты.
Вопреки распространенному мнению, более длинные цепочки рассуждений не всегда означали улучшение качества ответов. Ученые пришли к выводу, что избыточная генерация токенов может быть признаком того, что модель испытывает трудности, а не углубляет свои рассуждения. Более того, сравнение моделей показало, что высокий расход токенов не обязательно коррелирует с более высокой точностью, что говорит о необходимости более целенаправленных подходов к масштабированию.
Наконец, исследование показало, что обычные модели, такие как GPT-4o, при значительном увеличении числа вызовов вывода (до 50 раз) могли приближаться к производительности моделей, настроенных на рассуждения, особенно на более простых задачах. Однако этот подход терял эффективность при решении сложных задач, что указывает на ограничения метода «грубой силы» в масштабировании.
Читать на dev.by