Studying CS: 10% coding, 90% screaming at the screen 👉 School of Digital Competencies
Support us

Больше не значит лучше: лишние токены ухудшают ответы ИИ

Новое исследование Microsoft Research выявило ключевые ограничения в возможностях рассуждений больших языковых моделей при масштабировании вывода. Оказалось, что большие вычислительные ресурсы не всегда приводят к лучшим результатам.

Оставить комментарий
Больше не значит лучше: лишние токены ухудшают ответы ИИ

Новое исследование Microsoft Research выявило ключевые ограничения в возможностях рассуждений больших языковых моделей при масштабировании вывода. Оказалось, что большие вычислительные ресурсы не всегда приводят к лучшим результатам.

Масштабирование во время вывода предполагает выделение дополнительных вычислительных ресурсов на этапе вывода модели для улучшения рассуждений по сложным задачам. Команда Microsoft протестировала девять ведущих ИИ-моделей, включая GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro, o1 от OpenAI и DeepSeek R1, с использованием трех методов масштабирования: цепочка рассуждений (Chain-of-Thought, CoT), параллельное масштабирование и последовательное масштабирование.

Эти методы оценивались на восьми сложных тестовых наборах данных, включая математические рассуждения (AIME, Omni-MATH), планирование (BA-Calendar) и NP-трудные задачи (3SAT, TSP). Исследование показало, что преимущества методов масштабирования во время вывода не являются универсальными. Хотя модели, специально настроенные для рассуждений, в целом превосходили обычные, степень их улучшения сильно зависела от типа задачи и используемой модели.

Например, успехи в математических задачах не всегда переносились на задачи планирования или научных рассуждений, а прирост производительности часто снижался по мере усложнения задач. Значительная вариативность в использовании токенов также стала важным наблюдением. Даже при схожей точности разные модели потребляли существенно разное количество токенов. Например, на тесте AIME 2025 по математике DeepSeek R1 использовал в пять раз больше токенов, чем Claude 3.7 Sonnet, несмотря на сопоставимые результаты.

Вопреки распространенному мнению, более длинные цепочки рассуждений не всегда означали улучшение качества ответов. Ученые пришли к выводу, что избыточная генерация токенов может быть признаком того, что модель испытывает трудности, а не углубляет свои рассуждения. Более того, сравнение моделей показало, что высокий расход токенов не обязательно коррелирует с более высокой точностью, что говорит о необходимости более целенаправленных подходов к масштабированию.

Наконец, исследование показало, что обычные модели, такие как GPT-4o, при значительном увеличении числа вызовов вывода (до 50 раз) могли приближаться к производительности моделей, настроенных на рассуждения, особенно на более простых задачах. Однако этот подход терял эффективность при решении сложных задач, что указывает на ограничения метода «грубой силы» в масштабировании.

Трамп хочет заблокировать DeepSeek и давит на Nvidia. Чипмейкер потеряет $55 млрд акции падают
Трамп хочет заблокировать DeepSeek и давит на Nvidia. Чипмейкер потеряет $5,5 млрд, акции падают
По теме
Трамп хочет заблокировать DeepSeek и давит на Nvidia. Чипмейкер потеряет $5,5 млрд, акции падают
Гейтс назвал две профессии где ИИ вытеснит людей — считалось что они неуязвимы
Гейтс назвал две профессии, где ИИ вытеснит людей — считалось, что они неуязвимы
По теме
Гейтс назвал две профессии, где ИИ вытеснит людей — считалось, что они неуязвимы
В Китае прокатилась волна преждевременных смертей среди ИИ-исследователей
В Китае прокатилась волна преждевременных смертей среди ИИ-исследователей
По теме
В Китае прокатилась волна преждевременных смертей среди ИИ-исследователей
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity. 
Sony не может договориться с Microsoft о продлении выпуска Call of Duty на PlayStation
Sony не может договориться с Microsoft о продлении выпуска Call of Duty на PlayStation
Sony не может договориться с Microsoft о продлении выпуска Call of Duty на PlayStation
1 комментарий
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Microsoft запустила обучающий сайт по Java
Microsoft запустила обучающий сайт по Java
Microsoft запустила обучающий сайт по Java
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.