DeepSeek зноў адчыніў год з нагі: новы метад навучання ШІ ужо назвалі «прарывам»

Кітайскі ШІ-стартап DeepSeek пачаў 2026 год публікацыяй даследчай працы, якую аналітыкі называюць прарывам у маштабаванні моўных мадэляў. Кампанія прэзентавала новы метад навучання ШІ, здольны змяніць падыход да стварэння вялікіх фундаментальных мадэляў, піша Business Insider.

Пакінуць каментарый

У артыкуле, суаўтарам якога выступіў заснавальнік DeepSeek Лян Вэньфэн, апісваецца метад Manifold-Constrained Hyper-Connections (mHC). Ён дазваляе маштабаваць моўныя мадэлі без страты стабільнасці і без «развалу» навучання — адной з ключавых праблем пры росце мадэляў.

Па меры павелічэння памеру мадэляў распрацоўшчыкі імкнуцца ўзмацніць унутраны абмен інфармацыяй паміж рознымі часткамі нейрасеткі. Гэта часта павышае якасць, але адначасова робіць навучанне нестабільным і дарагім. У DeepSeek сцвярджаюць, што іх падыход дазваляе мадэлям «камунікаваць» унутры сябе інтэнсіўней, але ў жорстка зададзеных рамках, захоўваючы стабільнасць і вылічальную эфектыўнасць.

Аналітык Counterpoint Research Вэй Сун назвала падыход DeepSeek «прарывам, што ўражвае». Па яе словах, кампанія змагла аб’яднаць некалькі тэхнік так, каб мінімізаваць рост кошту навучання, пры гэтым прыкметна павысіўшы прадукцыйнасць мадэляў. Нават пры невялікім павелічэнні выдаткаў выйгрыш у якасці можа быць значным.

Кітайскі АІ-стартап нарабіў шуму ў Даліне, абагнаў ChatGPT у App Store, пацягнуў уніз Nasdaq
Па тэме
Кітайскі АІ-стартап нарабіў шуму ў Даліне, абагнаў ChatGPT у App Store, пацягнуў уніз Nasdaq

На думку Сун, артыкул дэманструе ўнутраныя магчымасці DeepSeek: кампанія ўмее цалкам пераасэнсоўваць стэк навучання ШІ і спалучаць хуткую распрацоўку з нестандартнымі даследчымі ідэямі. Раней DeepSeek ужо ўдалося абысці вылічальныя абмежаванні — у студзені 2025 года стартап стварыў фурор мадэллю R1, якая па якасці параўноўвалася з лепшымі заходнімі аналагамі, але каштавала значна танней.

Галоўны аналітык Omdia Лян Цзе Су лічыць, што публікацыя можа выклікаць ланцуговую рэакцыю ў індустрыі — іншыя ШІ-лабараторыі пачнуць распрацоўваць уласныя версіі падыходу. А гатоўнасць дзяліцца важнымі даследаваннямі ён лічыць прыкметай узросшай упэўненасці кітайскай ШІ-індустрыі, дзе адкрытасць усё часцей выкарыстоўваецца як стратэгічная перавага.

Выхад артыкула супаў з чуткамі аб падрыхтоўцы наступнай флагманскай мадэлі DeepSeek — R2. Яе рэліз чакаўся ў сярэдзіне 2025 года, але быў адкладзены з-за незадаволенасці заснавальніка якасцю мадэлі і з-за дэфіцыту прасунутых ШІ-чыпаў. У самым артыкуле R2 не згадваецца, але аналітыкі звяртаюць увагу, што DeepSeek публікавала ключавыя даследаванні незадоўга да запуску R1.

Пры гэтым аналітыкі адзначаюць, што нягледзячы на тэхналагічныя поспехі DeepSeek усё яшчэ саступае заходнім лідарам па дыстрыбуцыі і ахопу, асабліва на рынках ЗША і Еўропы. Гэта можа абмежаваць уплыў нават самых моцных тэхнічных рашэнняў.

Амерыканскія тэхнагіганты страцілі больш за $1 трыльён капіталізацыі за дзень, але пачалі аднаўляцца
Па тэме
Амерыканскія тэхнагіганты страцілі больш за $1 трыльён капіталізацыі за дзень, але пачалі аднаўляцца
Nvidia перанесла найбуйнейшае дзённае падзенне ў гісторыі ЗША праз кітайскі стартап. Вытворцы абсталявання, энергетычныя кампаніі, біткойн абваліліся
Па тэме
Nvidia перанесла найбуйнейшае дзённае падзенне ў гісторыі ЗША праз кітайскі стартап. Вытворцы абсталявання, энергетычныя кампаніі, біткойн абваліліся
Былы CEO Google: DeepSeek — гэта «паваротны момант» у глабальнай гонцы AI 
Па тэме
Былы CEO Google: DeepSeek — гэта «паваротны момант» у глабальнай гонцы AI

Читать на dev.by