Кітайскі АІ-стартап нарабіў шуму ў Даліне, абагнаў ChatGPT у App Store, пацягнуў уніз Nasdaq
Невялікі кітайскі АІ-стартап DeepSeek распрацоўвае вялікія моўныя мадэлі ва ўмовах абмежаванага бюджэту і тэхнічных рэсурсаў. На мінулым тыдні ён выпусціў мадэль R1, якая напалохала прадстаўнікоў Крэмніевай даліны. Рэліз прымусіў іх задумацца, ці змогуць больш забяспечаныя кампаніі накшталт Meta і Anthropic захаваць лідарства ў сферы, піша Financial Times.
R1 — мадэль, якая «разважае», з адкрытым зыходным кодам на 671 млрд параметраў. На некаторых АІ-бэнчмарках яна не саступае o1 ад OpenAI. Ёсць версіі «лягчэйшыя» на 1,5 млрд і 70 млрд параметраў. Самая «цяжкая» даступная праз API DeepSeek па цане на 90-95% меншай за o1. Будучы кітайскай мадэллю, R1 зацэнзураваная і не адказвае на некаторыя запыты. Для навучання мадэлі стартапу спатрэбілася ўсяго 2048 графічных працэсараў H800 ад Nvidia і $5,6 млн, што ў разы менш за выдаткі OpenAI і Google.
DeepSeek заснаваў кітайскі мільярдэр і кіраўнік хедж-фонду High-Flyer Лян Вэньфэн, які ўжо стаў прадметам гонару ў сваёй краіне. У 2021 годзе ён пачаў тысячамі скупляць графічныя працэсары Nvidia для чужога праекта па навучанні мадэляў. Нават партнёры лічылі яго дзіваком, які шукае новыя забавы, і не ўспрымалі сур’ёзна. У High-Flyer Лян нядрэнна зарабіў на алгарытмах для пошуку заканамернасцяў, якія маглі ўплываць на каціроўкі акцый. У 2023-м ён запусціў DeepSeek, заявіўшы, што хоча распрацаваць АІ, які не саступае чалавеку, і сабраў магутную каманду.
Калі ЗША забаранілі Nvidia пастаўляць перадавыя чыпы ў Кітай, мясцовым АІ-кампаніям прыйшлося шукаць спосабы максімізаваць вылічальную магутнасць абмежаванай колькасці наяўных — і не самых прасунутых — працэсараў. Гэтую праблему інжынеры Ляна паспяхова развязалі.
Праз фокус DeepSeek выключна на даследаваннях, у якія ўцягнуты і фаўндар, гульцы галіны бачаць у стартапе небяспечнага канкурэнта. Ён не браў інвестыцый ад вонкавых фондаў і сам манетызуе свае мадэлі. Інвестары параўноўваюць DeepSeek з раннім DeepMind, калі той займаўся толькі даследаваннямі і распрацоўкамі. Зарплаты супрацоўнікам DeepSeek Лян выплачвае з даходаў свайго хедж-фонду. Прычым гэта заробкі ўзроўню ByteDance — самыя высокія сярод АІ-спецыялістаў у Кітаі. DeepSeek мае офісы ў Ханчжоу і Пекіне. Супрацоўнікі, якіх набірае Лян, атрымлівалі адукацыю на радзіме, а не ў ЗША, а ў ядры каманды, паводле ягоных слоў, «няма людзей, якія вярнуліся з-за мяжы». Ён перакананы, што выхоўваць таленты трэба самастойна.
Каліфарнійскія эксперты адзначаюць, што першапраходцам у навучанні мадэляў складаней за ўсё і яны нясуць самыя вялікія выдаткі, а наступныя кампаніі могуць прагрэсаваць хутчэй і танней. Таксама, паводле іх слоў, у Кітаі значна большы за ЗША пул інжынераў, якія ведаюць, як аптымальней выкарыстоўваць вылічальныя рэсурсы і рабіць мадэлі таннейшымі. Але, нягледзячы на велізарны пачатковы поспех DeepSeek, гульцы галіны не ўпэўненыя, што стартап зможа заставацца канкурэнтаздольным па меры развіцця АІ-сферы.
Паводле паведамлення Bloomberg, праграма DeepSeek за выходныя выйшла ў лідары ў бясплатным топе ў амерыканскім сегменце App Store, абагнаўшы ChatGPT. Ф’ючарсы на тэхналагічны індэкс Nasdaq 100 у Азіі сёння знізіліся амаль на 2%, а каціроўкі Nvidia на прэмаркеце ўпалі на 10%.
Читать на dev.by