Дапамажыце dev.by 🤍
Падтрымаць

Больш не значыць лепш: лішнія токены пагаршаюць адказы ШІ

Новае даследаванне Microsoft Research выявіла ключавыя абмежаванні ў магчымасцях разважанняў буйных моўных мадэляў пры маштабаванні вываду. Высветлілася, што вялікія вылічальныя рэсурсы не заўсёды прыводзяць да лепшых вынікаў.

Пакінуць каментарый
Больш не значыць лепш: лішнія токены пагаршаюць адказы ШІ

Новае даследаванне Microsoft Research выявіла ключавыя абмежаванні ў магчымасцях разважанняў буйных моўных мадэляў пры маштабаванні вываду. Высветлілася, што вялікія вылічальныя рэсурсы не заўсёды прыводзяць да лепшых вынікаў.

Маштабаванне падчас вываду прадугледжвае вылучэнне дадатковых вылічальных рэсурсаў на этапе вываду мадэлі для паляпшэння разважанняў па складаных задачах. Каманда Microsoft пратэставала дзевяць вядучых ШІ-мадэляў, уключаючы GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro, o1 ад OpenAI і DeepSeek R1, з выкарыстаннем трох метадаў маштабавання: ланцуг разважанняў (Chain-of-Thought, CoT), паралельнае маштабаванне і паслядоўнае маштабаванне.

Гэтыя метады ацэньваліся па васьмі складаных тэставых наборах даных, уключаючы матэматычныя разважанні (AIME, Omni-MATH), планаванне (BA-Calendar) і NP-цяжкія задачы (3SAT, TSP). Даследаванне паказала, што перавагі метадаў маштабавання падчас вываду не з’яўляюцца ўніверсальнымі. Хаця мадэлі, спецыяльна настроеныя для разважанняў, у цэлым пераўзыходзілі звычайныя, ступень іх паляпшэння моцна залежала ад тыпу задачы і выкарыстанай мадэлі.

Напрыклад, поспехі ў матэматычных задачах не заўсёды пераносіліся на задачы планавання або навуковыя разважанні, а прырост прадукцыйнасці часта змяншаўся па меры ўскладнення задач. Значная варыятыўнасць у выкарыстанні токенаў таксама стала важным назіраннем. Нават пры падобнай дакладнасці розныя мадэлі спажывалі істотна розную колькасць токенаў. Напрыклад, на тэсту AIME 2025 па матэматыцы DeepSeek R1 выкарыстаў у пяць разоў больш токенаў, чым Claude 3.7 Sonnet, нягледзячы на параўнальныя вынікі.

Насуперак папулярнаму меркаванню, больш даўгія ланцужкі разважанняў не заўсёды азначалі паляпшэнне якасці адказаў. Навукоўцы прыйшлі да высновы, што залішняя генерацыя токенаў можа быць прыкметай таго, што мадэль сутыкаецца з цяжкасцямі, а не паглыбляе свае разважанні. Больш за тое, параўнанне мадэляў паказала, што высокі расход токенаў не абавязкова карэлюе з больш высокай дакладнасцю, што сведчыць пра неабходнасць больш мэтанакіраваных падыходаў да маштабавання.

Нарэшце, даследаванне паказала, што звычайныя мадэлі, такія як GPT-4o, пры істотным павелічэнні колькасці выклікаў вываду (да 50 разоў) маглі набліжацца да прадукцыйнасці мадэляў, настроеных на разважанні, асабліва на больш простых задачах. Аднак гэты падыход губляў эфектыўнасць пры вырашэнні складаных задач, што паказвае на абмежаванні метаду «грубай сілы» ў маштабаванні.

Трамп хоча заблакаваць DeepSeek і цісне на Nvidia. Чыпмейкер страціць $55 млрд акцыі падаюць
Трамп хоча заблакаваць DeepSeek і цісне на Nvidia. Чыпмейкер страціць $5,5 млрд, акцыі падаюць
Па тэме
Трамп хоча заблакаваць DeepSeek і цісне на Nvidia. Чыпмейкер страціць $5,5 млрд, акцыі падаюць
Гейтс назваў дзве прафесіі дзе ШІ выцесніць людзей — лічылася што яны непаражальныя
Гейтс назваў дзве прафесіі, дзе ШІ выцесніць людзей — лічылася, што яны непаражальныя
Па тэме
Гейтс назваў дзве прафесіі, дзе ШІ выцесніць людзей — лічылася, што яны непаражальныя
У Кітаі пракацілася хваля заўчасных смерцяў сярод даследчыкаў ШІ
У Кітаі пракацілася хваля заўчасных смерцяў сярод даследчыкаў ШІ
Па тэме
У Кітаі пракацілася хваля заўчасных смерцяў сярод даследчыкаў ШІ
Чытайце таксама
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity. 
Sony не может договориться с Microsoft о продлении выпуска Call of Duty на PlayStation
Sony не может договориться с Microsoft о продлении выпуска Call of Duty на PlayStation
Sony не может договориться с Microsoft о продлении выпуска Call of Duty на PlayStation
1 каментарый
Microsoft не будет поднимать цены на Xbox вслед за Sony
Microsoft не будет поднимать цены на Xbox вслед за Sony
Microsoft не будет поднимать цены на Xbox вслед за Sony
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.