DeepSeek зноў адчыніў год з нагі: новы метад навучання ШІ ужо назвалі «прарывам»
Кітайскі ШІ-стартап DeepSeek пачаў 2026 год публікацыяй даследчай працы, якую аналітыкі называюць прарывам у маштабаванні моўных мадэляў. Кампанія прэзентавала новы метад навучання ШІ, здольны змяніць падыход да стварэння вялікіх фундаментальных мадэляў, піша Business Insider.
У артыкуле, суаўтарам якога выступіў заснавальнік DeepSeek Лян Вэньфэн, апісваецца метад Manifold-Constrained Hyper-Connections (mHC). Ён дазваляе маштабаваць моўныя мадэлі без страты стабільнасці і без «развалу» навучання — адной з ключавых праблем пры росце мадэляў.
Па меры павелічэння памеру мадэляў распрацоўшчыкі імкнуцца ўзмацніць унутраны абмен інфармацыяй паміж рознымі часткамі нейрасеткі. Гэта часта павышае якасць, але адначасова робіць навучанне нестабільным і дарагім. У DeepSeek сцвярджаюць, што іх падыход дазваляе мадэлям «камунікаваць» унутры сябе інтэнсіўней, але ў жорстка зададзеных рамках, захоўваючы стабільнасць і вылічальную эфектыўнасць.
Аналітык Counterpoint Research Вэй Сун назвала падыход DeepSeek «прарывам, што ўражвае». Па яе словах, кампанія змагла аб’яднаць некалькі тэхнік так, каб мінімізаваць рост кошту навучання, пры гэтым прыкметна павысіўшы прадукцыйнасць мадэляў. Нават пры невялікім павелічэнні выдаткаў выйгрыш у якасці можа быць значным.
На думку Сун, артыкул дэманструе ўнутраныя магчымасці DeepSeek: кампанія ўмее цалкам пераасэнсоўваць стэк навучання ШІ і спалучаць хуткую распрацоўку з нестандартнымі даследчымі ідэямі. Раней DeepSeek ужо ўдалося абысці вылічальныя абмежаванні — у студзені 2025 года стартап стварыў фурор мадэллю R1, якая па якасці параўноўвалася з лепшымі заходнімі аналагамі, але каштавала значна танней.
Галоўны аналітык Omdia Лян Цзе Су лічыць, што публікацыя можа выклікаць ланцуговую рэакцыю ў індустрыі — іншыя ШІ-лабараторыі пачнуць распрацоўваць уласныя версіі падыходу. А гатоўнасць дзяліцца важнымі даследаваннямі ён лічыць прыкметай узросшай упэўненасці кітайскай ШІ-індустрыі, дзе адкрытасць усё часцей выкарыстоўваецца як стратэгічная перавага.
Выхад артыкула супаў з чуткамі аб падрыхтоўцы наступнай флагманскай мадэлі DeepSeek — R2. Яе рэліз чакаўся ў сярэдзіне 2025 года, але быў адкладзены з-за незадаволенасці заснавальніка якасцю мадэлі і з-за дэфіцыту прасунутых ШІ-чыпаў. У самым артыкуле R2 не згадваецца, але аналітыкі звяртаюць увагу, што DeepSeek публікавала ключавыя даследаванні незадоўга да запуску R1.
Пры гэтым аналітыкі адзначаюць, што нягледзячы на тэхналагічныя поспехі DeepSeek усё яшчэ саступае заходнім лідарам па дыстрыбуцыі і ахопу, асабліва на рынках ЗША і Еўропы. Гэта можа абмежаваць уплыў нават самых моцных тэхнічных рашэнняў.
Читать на dev.by