Айцішнік напісаў першы беларускамоўны посткіберпанк-раман. Пра што?
Support us

Больше не значит лучше: лишние токены ухудшают ответы ИИ

Новое исследование Microsoft Research выявило ключевые ограничения в возможностях рассуждений больших языковых моделей при масштабировании вывода. Оказалось, что большие вычислительные ресурсы не всегда приводят к лучшим результатам.

Оставить комментарий
Больше не значит лучше: лишние токены ухудшают ответы ИИ

Новое исследование Microsoft Research выявило ключевые ограничения в возможностях рассуждений больших языковых моделей при масштабировании вывода. Оказалось, что большие вычислительные ресурсы не всегда приводят к лучшим результатам.

Масштабирование во время вывода предполагает выделение дополнительных вычислительных ресурсов на этапе вывода модели для улучшения рассуждений по сложным задачам. Команда Microsoft протестировала девять ведущих ИИ-моделей, включая GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro, o1 от OpenAI и DeepSeek R1, с использованием трех методов масштабирования: цепочка рассуждений (Chain-of-Thought, CoT), параллельное масштабирование и последовательное масштабирование.

Эти методы оценивались на восьми сложных тестовых наборах данных, включая математические рассуждения (AIME, Omni-MATH), планирование (BA-Calendar) и NP-трудные задачи (3SAT, TSP). Исследование показало, что преимущества методов масштабирования во время вывода не являются универсальными. Хотя модели, специально настроенные для рассуждений, в целом превосходили обычные, степень их улучшения сильно зависела от типа задачи и используемой модели.

Например, успехи в математических задачах не всегда переносились на задачи планирования или научных рассуждений, а прирост производительности часто снижался по мере усложнения задач. Значительная вариативность в использовании токенов также стала важным наблюдением. Даже при схожей точности разные модели потребляли существенно разное количество токенов. Например, на тесте AIME 2025 по математике DeepSeek R1 использовал в пять раз больше токенов, чем Claude 3.7 Sonnet, несмотря на сопоставимые результаты.

Вопреки распространенному мнению, более длинные цепочки рассуждений не всегда означали улучшение качества ответов. Ученые пришли к выводу, что избыточная генерация токенов может быть признаком того, что модель испытывает трудности, а не углубляет свои рассуждения. Более того, сравнение моделей показало, что высокий расход токенов не обязательно коррелирует с более высокой точностью, что говорит о необходимости более целенаправленных подходов к масштабированию.

Наконец, исследование показало, что обычные модели, такие как GPT-4o, при значительном увеличении числа вызовов вывода (до 50 раз) могли приближаться к производительности моделей, настроенных на рассуждения, особенно на более простых задачах. Однако этот подход терял эффективность при решении сложных задач, что указывает на ограничения метода «грубой силы» в масштабировании.

Трамп хочет заблокировать DeepSeek и давит на Nvidia. Чипмейкер потеряет $55 млрд акции падают
Трамп хочет заблокировать DeepSeek и давит на Nvidia. Чипмейкер потеряет $5,5 млрд, акции падают
По теме
Трамп хочет заблокировать DeepSeek и давит на Nvidia. Чипмейкер потеряет $5,5 млрд, акции падают
Гейтс назвал две профессии где ИИ вытеснит людей — считалось что они неуязвимы
Гейтс назвал две профессии, где ИИ вытеснит людей — считалось, что они неуязвимы
По теме
Гейтс назвал две профессии, где ИИ вытеснит людей — считалось, что они неуязвимы
В Китае прокатилась волна преждевременных смертей среди ИИ-исследователей
В Китае прокатилась волна преждевременных смертей среди ИИ-исследователей
По теме
В Китае прокатилась волна преждевременных смертей среди ИИ-исследователей
Читайте также
Три года с ChatGPT. Как исскуственный интеллект стал моим стилистом, терапевтом и преподавателем
Три года с ChatGPT. Как исскуственный интеллект стал моим стилистом, терапевтом и преподавателем
Три года с ChatGPT. Как исскуственный интеллект стал моим стилистом, терапевтом и преподавателем
Вот уже три года я каждый день общаюсь с ChatGPT. Он стал незаменимым помощником в изучении языка и даже помог сформировать собственный стиль в одежде. Кажется, из бездушного робота превратился в близкого спутника. В этой колонке я делюсь своим опытом использования ChatGPT в повседневных задачах и рассказываю, как искусственный интеллект помогает мне экономить время и энергию.
Вы напугали OpenAI: Альтман сказал сотрудникам, что свежие релизы Google могут создать проблемы для стартапа
Вы напугали OpenAI: Альтман сказал сотрудникам, что свежие релизы Google могут создать проблемы для стартапа
Вы напугали OpenAI: Альтман сказал сотрудникам, что свежие релизы Google могут создать проблемы для стартапа
Глава Google DeepMind: будущее ИИ — за «мировыми моделями»
Глава Google DeepMind: будущее ИИ — за «мировыми моделями»
Глава Google DeepMind: будущее ИИ — за «мировыми моделями»
Microsoft признала, что почти все основные компоненты Windows 11 поломаны
Microsoft признала, что почти все основные компоненты Windows 11 поломаны
Microsoft признала, что почти все основные компоненты Windows 11 поломаны
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.