Кітайскі ШІ DeepSeek навучылі за $294 000. Гэта ў сотні разоў танней, чым у OpenAI

Кітайскі распрацоўшчык штучнага інтэлекту DeepSeek паведаміў, што навучанне яго мадэлі R1 абышлося ўсяго ў $294 000 — сума значна ніжэйшая за выдаткі, пра якія раней казалі амерыканскія канкурэнты.

Пакінуць каментарый

Пра гэта кампанія заявіла ў артыкуле, апублікаваным у часопісе Nature. Гэта першы раз, калі DeepSeek раскрыла канкрэтныя выдаткі на навучанне R1. У артыкуле пазначаецца, што мадэль, арыентаваная на разважанні, была навучана на працягу 80 гадзін на кластары з 512 чыпаў Nvidia H800. Для падрыхтоўчых этапаў DeepSeek таксама выкарыстоўвала GPU A100, пра што ўпершыню афіцыйна ўзгадала ў дакументацыі да даследавання.

Для параўнання, кіраўнік OpenAI Сэм Альтман заяўляў яшчэ ў 2023 годзе, што навучанне фундаментальных мадэляў абыходзілася «нашмат даражэй за $100 мільёнаў», аднак дакладныя лічбы кампанія не раскрывала. Аб’ява DeepSeek ужо выклікала новую хвалю дыскусій пра месца Кітая ў глабальнай гонцы ШІ. Раней у студзені паведамленні пра нізказатратныя мадэлі DeepSeek справакавалі падзенне акцый заходніх тэхналагічных кампаній.

Амерыканскія афіцыйныя асобы і эксперты выказвалі сумневы ў дакладнасці сцвярджэнняў DeepSeek пра тэхналогіі, што выкарыстоўваюцца. У ЗША сцвярджалі, што ў кампаніі ёсць доступ да вялікай колькасці чыпаў Nvidia H100, пастаўкі якіх у Кітай забаронены з кастрычніка 2022 года. DeepSeek жа заяўляе, што выкарыстоўвае выключна законна набытыя H800.

Акрамя таго, кампанія ўпершыню ўскосна адказала на абвінавачванні ў «дыстыляцыі» — выкарыстанні ўжо існуючых ШІ-мадэляў для навучання ўласных сістэм. DeepSeek прызнала, што ў яе дадзеных прысутнічалі матэрыялы, створаныя іншымі мадэлямі, у тым ліку OpenAI, але падкрэсліла, што гэта было «ненаўмысным».

Тэхніка дыстыляцыі дазваляе навучыць новы алгарытм на базе адказаў іншай мадэлі, што зніжае выдаткі на распрацоўку і робіць ШІ-доступ больш масавым. Раней DeepSeek пацвярджала, што выкарыстоўвала адкрытую мадэль Llama ад Meta ў некаторых версіях сваіх сістэм.

ШІ-агенты ствараюць новую эканоміку, але рызыкуюць абрынуць яе за секунды
Па тэме
ШІ-агенты ствараюць новую эканоміку, але рызыкуюць абрынуць яе за секунды
DeepSeek піша больш уразлівы код для тых, хто не падабаецца партыі
Па тэме
DeepSeek піша больш уразлівы код для тых, хто не падабаецца партыі
Як укараніць штучны інтэлект у кампаніі — меркаванне топаў OpenAI
Па тэме
Як укараніць штучны інтэлект у кампаніі — меркаванне топаў OpenAI

Читать на dev.by