Кітайскі ШІ DeepSeek навучылі за $294 000. Гэта ў сотні разоў танней, чым у OpenAI
Кітайскі распрацоўшчык штучнага інтэлекту DeepSeek паведаміў, што навучанне яго мадэлі R1 абышлося ўсяго ў $294 000 — сума значна ніжэйшая за выдаткі, пра якія раней казалі амерыканскія канкурэнты.
Кітайскі распрацоўшчык штучнага інтэлекту DeepSeek паведаміў, што навучанне яго мадэлі R1 абышлося ўсяго ў $294 000 — сума значна ніжэйшая за выдаткі, пра якія раней казалі амерыканскія канкурэнты.
Пра гэта кампанія заявіла ў артыкуле, апублікаваным у часопісе Nature. Гэта першы раз, калі DeepSeek раскрыла канкрэтныя выдаткі на навучанне R1. У артыкуле пазначаецца, што мадэль, арыентаваная на разважанні, была навучана на працягу 80 гадзін на кластары з 512 чыпаў Nvidia H800. Для падрыхтоўчых этапаў DeepSeek таксама выкарыстоўвала GPU A100, пра што ўпершыню афіцыйна ўзгадала ў дакументацыі да даследавання.
Для параўнання, кіраўнік OpenAI Сэм Альтман заяўляў яшчэ ў 2023 годзе, што навучанне фундаментальных мадэляў абыходзілася «нашмат даражэй за $100 мільёнаў», аднак дакладныя лічбы кампанія не раскрывала. Аб’ява DeepSeek ужо выклікала новую хвалю дыскусій пра месца Кітая ў глабальнай гонцы ШІ. Раней у студзені паведамленні пра нізказатратныя мадэлі DeepSeek справакавалі падзенне акцый заходніх тэхналагічных кампаній.
Амерыканскія афіцыйныя асобы і эксперты выказвалі сумневы ў дакладнасці сцвярджэнняў DeepSeek пра тэхналогіі, што выкарыстоўваюцца. У ЗША сцвярджалі, што ў кампаніі ёсць доступ да вялікай колькасці чыпаў Nvidia H100, пастаўкі якіх у Кітай забаронены з кастрычніка 2022 года. DeepSeek жа заяўляе, што выкарыстоўвае выключна законна набытыя H800.
Акрамя таго, кампанія ўпершыню ўскосна адказала на абвінавачванні ў «дыстыляцыі» — выкарыстанні ўжо існуючых ШІ-мадэляў для навучання ўласных сістэм. DeepSeek прызнала, што ў яе дадзеных прысутнічалі матэрыялы, створаныя іншымі мадэлямі, у тым ліку OpenAI, але падкрэсліла, што гэта было «ненаўмысным».
Тэхніка дыстыляцыі дазваляе навучыць новы алгарытм на базе адказаў іншай мадэлі, што зніжае выдаткі на распрацоўку і робіць ШІ-доступ больш масавым. Раней DeepSeek пацвярджала, што выкарыстоўвала адкрытую мадэль Llama ад Meta ў некаторых версіях сваіх сістэм.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.