Николай Чикишев world 17 красавіка 2025, 13:03

Больш не значыць лепш: лішнія токены пагаршаюць адказы ШІ

Новае даследаванне Microsoft Research выявіла ключавыя абмежаванні ў магчымасцях разважанняў буйных моўных мадэляў пры маштабаванні вываду. Высветлілася, што вялікія вылічальныя рэсурсы не заўсёды прыводзяць да лепшых вынікаў.

Пакінуць каментарый

Больш не значыць лепш: лішнія токены пагаршаюць адказы ШІ

Новае даследаванне Microsoft Research выявіла ключавыя абмежаванні ў магчымасцях разважанняў буйных моўных мадэляў пры маштабаванні вываду. Высветлілася, што вялікія вылічальныя рэсурсы не заўсёды прыводзяць да лепшых вынікаў.

Маштабаванне падчас вываду прадугледжвае вылучэнне дадатковых вылічальных рэсурсаў на этапе вываду мадэлі для паляпшэння разважанняў па складаных задачах. Каманда Microsoft пратэставала дзевяць вядучых ШІ-мадэляў, уключаючы GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro, o1 ад OpenAI і DeepSeek R1, з выкарыстаннем трох метадаў маштабавання: ланцуг разважанняў (Chain-of-Thought, CoT), паралельнае маштабаванне і паслядоўнае маштабаванне.

Гэтыя метады ацэньваліся па васьмі складаных тэставых наборах даных, уключаючы матэматычныя разважанні (AIME, Omni-MATH), планаванне (BA-Calendar) і NP-цяжкія задачы (3SAT, TSP). Даследаванне паказала, што перавагі метадаў маштабавання падчас вываду не з’яўляюцца ўніверсальнымі. Хаця мадэлі, спецыяльна настроеныя для разважанняў, у цэлым пераўзыходзілі звычайныя, ступень іх паляпшэння моцна залежала ад тыпу задачы і выкарыстанай мадэлі.

Напрыклад, поспехі ў матэматычных задачах не заўсёды пераносіліся на задачы планавання або навуковыя разважанні, а прырост прадукцыйнасці часта змяншаўся па меры ўскладнення задач. Значная варыятыўнасць у выкарыстанні токенаў таксама стала важным назіраннем. Нават пры падобнай дакладнасці розныя мадэлі спажывалі істотна розную колькасць токенаў. Напрыклад, на тэсту AIME 2025 па матэматыцы DeepSeek R1 выкарыстаў у пяць разоў больш токенаў, чым Claude 3.7 Sonnet, нягледзячы на параўнальныя вынікі.

Насуперак папулярнаму меркаванню, больш даўгія ланцужкі разважанняў не заўсёды азначалі паляпшэнне якасці адказаў. Навукоўцы прыйшлі да высновы, што залішняя генерацыя токенаў можа быць прыкметай таго, што мадэль сутыкаецца з цяжкасцямі, а не паглыбляе свае разважанні. Больш за тое, параўнанне мадэляў паказала, што высокі расход токенаў не абавязкова карэлюе з больш высокай дакладнасцю, што сведчыць пра неабходнасць больш мэтанакіраваных падыходаў да маштабавання.

Нарэшце, даследаванне паказала, што звычайныя мадэлі, такія як GPT-4o, пры істотным павелічэнні колькасці выклікаў вываду (да 50 разоў) маглі набліжацца да прадукцыйнасці мадэляў, настроеных на разважанні, асабліва на больш простых задачах. Аднак гэты падыход губляў эфектыўнасць пры вырашэнні складаных задач, што паказвае на абмежаванні метаду «грубай сілы» ў маштабаванні.