Дапамажыце dev.by 🤍
Падтрымаць

Больш не значыць лепш: лішнія токены пагаршаюць адказы ШІ

Новае даследаванне Microsoft Research выявіла ключавыя абмежаванні ў магчымасцях разважанняў буйных моўных мадэляў пры маштабаванні вываду. Высветлілася, што вялікія вылічальныя рэсурсы не заўсёды прыводзяць да лепшых вынікаў.

Пакінуць каментарый
Больш не значыць лепш: лішнія токены пагаршаюць адказы ШІ

Новае даследаванне Microsoft Research выявіла ключавыя абмежаванні ў магчымасцях разважанняў буйных моўных мадэляў пры маштабаванні вываду. Высветлілася, што вялікія вылічальныя рэсурсы не заўсёды прыводзяць да лепшых вынікаў.

Маштабаванне падчас вываду прадугледжвае вылучэнне дадатковых вылічальных рэсурсаў на этапе вываду мадэлі для паляпшэння разважанняў па складаных задачах. Каманда Microsoft пратэставала дзевяць вядучых ШІ-мадэляў, уключаючы GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro, o1 ад OpenAI і DeepSeek R1, з выкарыстаннем трох метадаў маштабавання: ланцуг разважанняў (Chain-of-Thought, CoT), паралельнае маштабаванне і паслядоўнае маштабаванне.

Гэтыя метады ацэньваліся па васьмі складаных тэставых наборах даных, уключаючы матэматычныя разважанні (AIME, Omni-MATH), планаванне (BA-Calendar) і NP-цяжкія задачы (3SAT, TSP). Даследаванне паказала, што перавагі метадаў маштабавання падчас вываду не з’яўляюцца ўніверсальнымі. Хаця мадэлі, спецыяльна настроеныя для разважанняў, у цэлым пераўзыходзілі звычайныя, ступень іх паляпшэння моцна залежала ад тыпу задачы і выкарыстанай мадэлі.

Напрыклад, поспехі ў матэматычных задачах не заўсёды пераносіліся на задачы планавання або навуковыя разважанні, а прырост прадукцыйнасці часта змяншаўся па меры ўскладнення задач. Значная варыятыўнасць у выкарыстанні токенаў таксама стала важным назіраннем. Нават пры падобнай дакладнасці розныя мадэлі спажывалі істотна розную колькасць токенаў. Напрыклад, на тэсту AIME 2025 па матэматыцы DeepSeek R1 выкарыстаў у пяць разоў больш токенаў, чым Claude 3.7 Sonnet, нягледзячы на параўнальныя вынікі.

Насуперак папулярнаму меркаванню, больш даўгія ланцужкі разважанняў не заўсёды азначалі паляпшэнне якасці адказаў. Навукоўцы прыйшлі да высновы, што залішняя генерацыя токенаў можа быць прыкметай таго, што мадэль сутыкаецца з цяжкасцямі, а не паглыбляе свае разважанні. Больш за тое, параўнанне мадэляў паказала, што высокі расход токенаў не абавязкова карэлюе з больш высокай дакладнасцю, што сведчыць пра неабходнасць больш мэтанакіраваных падыходаў да маштабавання.

Нарэшце, даследаванне паказала, што звычайныя мадэлі, такія як GPT-4o, пры істотным павелічэнні колькасці выклікаў вываду (да 50 разоў) маглі набліжацца да прадукцыйнасці мадэляў, настроеных на разважанні, асабліва на больш простых задачах. Аднак гэты падыход губляў эфектыўнасць пры вырашэнні складаных задач, што паказвае на абмежаванні метаду «грубай сілы» ў маштабаванні.

Трамп хоча заблакаваць DeepSeek і цісне на Nvidia. Чыпмейкер страціць $55 млрд акцыі падаюць
Трамп хоча заблакаваць DeepSeek і цісне на Nvidia. Чыпмейкер страціць $5,5 млрд, акцыі падаюць
Па тэме
Трамп хоча заблакаваць DeepSeek і цісне на Nvidia. Чыпмейкер страціць $5,5 млрд, акцыі падаюць
Гейтс назваў дзве прафесіі дзе ШІ выцесніць людзей — лічылася што яны непаражальныя
Гейтс назваў дзве прафесіі, дзе ШІ выцесніць людзей — лічылася, што яны непаражальныя
Па тэме
Гейтс назваў дзве прафесіі, дзе ШІ выцесніць людзей — лічылася, што яны непаражальныя
У Кітаі пракацілася хваля заўчасных смерцяў сярод даследчыкаў ШІ
У Кітаі пракацілася хваля заўчасных смерцяў сярод даследчыкаў ШІ
Па тэме
У Кітаі пракацілася хваля заўчасных смерцяў сярод даследчыкаў ШІ
Чытайце таксама
Google ўрэзала доступ да Pro-версій Gemini 3 і Nano Banana, Alibaba дзеліць кліентаў па прыярытэту — кампаніі пакутуюць на папулярнасць
Google ўрэзала доступ да Pro-версій Gemini 3 і Nano Banana, Alibaba дзеліць кліентаў па прыярытэту — кампаніі пакутуюць на папулярнасць
Google ўрэзала доступ да Pro-версій Gemini 3 і Nano Banana, Alibaba дзеліць кліентаў па прыярытэту — кампаніі пакутуюць на папулярнасць
ШІ ужо зараз можа замяніць 12% амерыканскіх работнікаў
ШІ ужо зараз можа замяніць 12% амерыканскіх работнікаў
ШІ ужо зараз можа замяніць 12% амерыканскіх работнікаў
2 каментарыя
Сузаснавальнік OpenAI: галоўная стратэгія развіцця ШІ вычарпала сябе — трэба вяртацца да навуковых вытокаў
Сузаснавальнік OpenAI: галоўная стратэгія развіцця ШІ вычарпала сябе — трэба вяртацца да навуковых вытокаў
Сузаснавальнік OpenAI: галоўная стратэгія развіцця ШІ вычарпала сябе — трэба вяртацца да навуковых вытокаў
Nvidia: Google добрая, але мы на пакаленне наперадзе
Nvidia: Google добрая, але мы на пакаленне наперадзе
Nvidia: Google добрая, але мы на пакаленне наперадзе
3 каментарыя

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.