Дапамажыце dev.by 🤍
Падтрымаць

Больш не значыць лепш: лішнія токены пагаршаюць адказы ШІ

Новае даследаванне Microsoft Research выявіла ключавыя абмежаванні ў магчымасцях разважанняў буйных моўных мадэляў пры маштабаванні вываду. Высветлілася, што вялікія вылічальныя рэсурсы не заўсёды прыводзяць да лепшых вынікаў.

Пакінуць каментарый
Больш не значыць лепш: лішнія токены пагаршаюць адказы ШІ

Новае даследаванне Microsoft Research выявіла ключавыя абмежаванні ў магчымасцях разважанняў буйных моўных мадэляў пры маштабаванні вываду. Высветлілася, што вялікія вылічальныя рэсурсы не заўсёды прыводзяць да лепшых вынікаў.

Маштабаванне падчас вываду прадугледжвае вылучэнне дадатковых вылічальных рэсурсаў на этапе вываду мадэлі для паляпшэння разважанняў па складаных задачах. Каманда Microsoft пратэставала дзевяць вядучых ШІ-мадэляў, уключаючы GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro, o1 ад OpenAI і DeepSeek R1, з выкарыстаннем трох метадаў маштабавання: ланцуг разважанняў (Chain-of-Thought, CoT), паралельнае маштабаванне і паслядоўнае маштабаванне.

Гэтыя метады ацэньваліся па васьмі складаных тэставых наборах даных, уключаючы матэматычныя разважанні (AIME, Omni-MATH), планаванне (BA-Calendar) і NP-цяжкія задачы (3SAT, TSP). Даследаванне паказала, што перавагі метадаў маштабавання падчас вываду не з’яўляюцца ўніверсальнымі. Хаця мадэлі, спецыяльна настроеныя для разважанняў, у цэлым пераўзыходзілі звычайныя, ступень іх паляпшэння моцна залежала ад тыпу задачы і выкарыстанай мадэлі.

Напрыклад, поспехі ў матэматычных задачах не заўсёды пераносіліся на задачы планавання або навуковыя разважанні, а прырост прадукцыйнасці часта змяншаўся па меры ўскладнення задач. Значная варыятыўнасць у выкарыстанні токенаў таксама стала важным назіраннем. Нават пры падобнай дакладнасці розныя мадэлі спажывалі істотна розную колькасць токенаў. Напрыклад, на тэсту AIME 2025 па матэматыцы DeepSeek R1 выкарыстаў у пяць разоў больш токенаў, чым Claude 3.7 Sonnet, нягледзячы на параўнальныя вынікі.

Насуперак папулярнаму меркаванню, больш даўгія ланцужкі разважанняў не заўсёды азначалі паляпшэнне якасці адказаў. Навукоўцы прыйшлі да высновы, што залішняя генерацыя токенаў можа быць прыкметай таго, што мадэль сутыкаецца з цяжкасцямі, а не паглыбляе свае разважанні. Больш за тое, параўнанне мадэляў паказала, што высокі расход токенаў не абавязкова карэлюе з больш высокай дакладнасцю, што сведчыць пра неабходнасць больш мэтанакіраваных падыходаў да маштабавання.

Нарэшце, даследаванне паказала, што звычайныя мадэлі, такія як GPT-4o, пры істотным павелічэнні колькасці выклікаў вываду (да 50 разоў) маглі набліжацца да прадукцыйнасці мадэляў, настроеных на разважанні, асабліва на больш простых задачах. Аднак гэты падыход губляў эфектыўнасць пры вырашэнні складаных задач, што паказвае на абмежаванні метаду «грубай сілы» ў маштабаванні.

Трамп хоча заблакаваць DeepSeek і цісне на Nvidia. Чыпмейкер страціць $55 млрд акцыі падаюць
Трамп хоча заблакаваць DeepSeek і цісне на Nvidia. Чыпмейкер страціць $5,5 млрд, акцыі падаюць
Па тэме
Трамп хоча заблакаваць DeepSeek і цісне на Nvidia. Чыпмейкер страціць $5,5 млрд, акцыі падаюць
Гейтс назваў дзве прафесіі дзе ШІ выцесніць людзей — лічылася што яны непаражальныя
Гейтс назваў дзве прафесіі, дзе ШІ выцесніць людзей — лічылася, што яны непаражальныя
Па тэме
Гейтс назваў дзве прафесіі, дзе ШІ выцесніць людзей — лічылася, што яны непаражальныя
У Кітаі пракацілася хваля заўчасных смерцяў сярод даследчыкаў ШІ
У Кітаі пракацілася хваля заўчасных смерцяў сярод даследчыкаў ШІ
Па тэме
У Кітаі пракацілася хваля заўчасных смерцяў сярод даследчыкаў ШІ
Чытайце таксама
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
7 каментарыяў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.