Николай Чикишев world 14 мая 2025, 15:06

Развіццё разважаючага ШІ хутка дасягне столі, лічаць эксперты

Разважаючыя мадэлі ШІ, такія як o3 ад OpenAI, хутка прагрэсу́юць, асабліва ў вырашэнні задач па матэматыцы і праграмаванні. Аднак даследаванне Epoch AI паказвае, што іх імклівы рост можа запаволіцца ўжо праз год з-за абмежаванняў у вылічальных рэсурсах і дадзеных.

Пакінуць каментарый

Развіццё разважаючага ШІ хутка дасягне столі, лічаць эксперты

Разважаючыя мадэлі ШІ, такія як o3 ад OpenAI, хутка прагрэсу́юць, асабліва ў вырашэнні задач па матэматыцы і праграмаванні. Аднак даследаванне Epoch AI паказвае, што іх імклівы рост можа запаволіцца ўжо праз год з-за абмежаванняў у вылічальных рэсурсах і дадзеных.

OpenAI паведаміла, што мадэль o3 выкарыстоўвае ў 10 разоў больш вылічэнняў для навучання разважанню, чым яе папярэдніца o1, выпушчаная ўсяго чатыры месяцы таму. Гэта дазволіла o3 істотна палепшыць вынікі ў тэстах, такіх як AIME і задачах па праграмаванні ад METR.

Аднак такія скачкі кожныя некалькі месяцаў не могуць працягвацца доўга. Паводле ацэнкі Epoch AI, калі цяперашнія тэмпы росту захаваюцца, то вылічэнні, неабходныя для навучання разважанню, дасягнуць мяжы — каля 1e26 FLOP — ужо да 2026 года. Пасля гэтага рост запаволіцца да 4-кратнага на год, як і ў астатняй індустрыі ШІ.

Магчымая траекторыя росту вылічэнняў для навучання разважанню, калі маштабаванне, падобнае да скачка паміж o1 і o3, працягнецца. Крыніца: Epoch AI.

Мадэлі разважання ствараюцца ў два этапы: спачатку іх навучаюць на велізарных наборах дадзеных, а затым выкарыстоўваюць навучанне з падмацаваннем (RL), дзе мадэлі атрымліваюць зваротную сувязь за рашэнне складаных задач. Гэты RL-этап патрабуе значных вылічальных рэсурсаў.

Напрыклад, мадэль DeepSeek-R1 выкарыстала каля 6e23 FLOP (прыкладна $1 мільён) на RL-навучанне, што склала 20% ад выдаткаў на яе папярэдняе навучанне. Для параўнання: іншыя мадэлі, такія як Llama-Nemotron Ultra ад Nvidia (1e23 FLOP) і Phi-4-reasoning ад Microsoft (менш за 1e20 FLOP), патрабуюць розны ўзровень вылічэнняў, але іх навучанне абапіраецца на сінтэтычныя дадзеныя, што ўскладняе параўнанне.

Існуюць і іншыя перашкоды. Гэта недахоп дадзеных: для RL-навучання патрэбны разнастайныя складанныя задачы, але іх стварэнне ці генерацыя ў дастатковай колькасці — складаная задача. Таксама ёсць праблема абагульнення: мадэлі выдатна спраўляюцца з матэматыкай і кодам, але іх эфектыўнасць у творчых ці неадназначных задачах пад пытаннем.

Да гэтага часу ўсе мадэлі ШІ схільныя да «галюцынацый»: разважаючыя мадэлі часцей даюць выдуманыя або памылковыя адказы, чым звычайныя ШІ. Распрацоўшчыкі таксама сутыкаюцца з прыхаванымі выдаткамі, напрыклад, даследаванні і эксперыменты па наладжванні мадэляў могуць каштаваць даражэй, чым само навучанне.

Гендырэктар Anthropic Дарыа Амадэй у студзені адзначыў, што выдаткі на RL-навучанне пакуль што невялікія — каля $1–10 мільёнаў, але кампаніі ўжо арыентуюцца на сотні мільёнаў. Гэта сведчыць аб тым, што o1 і o3 яшчэ не дасягнулі мяжы вылічэнняў, але набліжаюцца да яе.

Даследчыкі OpenAI, у тым ліку Дэн Робертс, упэўненыя, што далейшае павелічэнне вылічэнняў палепшыць мадэлі. Аднак калі вылічэнні ўпруцца ў столь, прагрэс можа залежаць ад новых алгарытмаў або дадзеных. Эксперты мяркуюць, што наступны год стане ключавым для разумення таго, як далёка могуць зайсці мадэлі разважання.