Кітайскі ШІ DeepSeek навучылі за $294 000. Гэта ў сотні разоў танней, чым у OpenAI
Кітайскі распрацоўшчык штучнага інтэлекту DeepSeek паведаміў, што навучанне яго мадэлі R1 абышлося ўсяго ў $294 000 — сума значна ніжэйшая за выдаткі, пра якія раней казалі амерыканскія канкурэнты.
Кітайскі распрацоўшчык штучнага інтэлекту DeepSeek паведаміў, што навучанне яго мадэлі R1 абышлося ўсяго ў $294 000 — сума значна ніжэйшая за выдаткі, пра якія раней казалі амерыканскія канкурэнты.
Пра гэта кампанія заявіла ў артыкуле, апублікаваным у часопісе Nature. Гэта першы раз, калі DeepSeek раскрыла канкрэтныя выдаткі на навучанне R1. У артыкуле пазначаецца, што мадэль, арыентаваная на разважанні, была навучана на працягу 80 гадзін на кластары з 512 чыпаў Nvidia H800. Для падрыхтоўчых этапаў DeepSeek таксама выкарыстоўвала GPU A100, пра што ўпершыню афіцыйна ўзгадала ў дакументацыі да даследавання.
Для параўнання, кіраўнік OpenAI Сэм Альтман заяўляў яшчэ ў 2023 годзе, што навучанне фундаментальных мадэляў абыходзілася «нашмат даражэй за $100 мільёнаў», аднак дакладныя лічбы кампанія не раскрывала. Аб’ява DeepSeek ужо выклікала новую хвалю дыскусій пра месца Кітая ў глабальнай гонцы ШІ. Раней у студзені паведамленні пра нізказатратныя мадэлі DeepSeek справакавалі падзенне акцый заходніх тэхналагічных кампаній.
Амерыканскія афіцыйныя асобы і эксперты выказвалі сумневы ў дакладнасці сцвярджэнняў DeepSeek пра тэхналогіі, што выкарыстоўваюцца. У ЗША сцвярджалі, што ў кампаніі ёсць доступ да вялікай колькасці чыпаў Nvidia H100, пастаўкі якіх у Кітай забаронены з кастрычніка 2022 года. DeepSeek жа заяўляе, што выкарыстоўвае выключна законна набытыя H800.
Акрамя таго, кампанія ўпершыню ўскосна адказала на абвінавачванні ў «дыстыляцыі» — выкарыстанні ўжо існуючых ШІ-мадэляў для навучання ўласных сістэм. DeepSeek прызнала, што ў яе дадзеных прысутнічалі матэрыялы, створаныя іншымі мадэлямі, у тым ліку OpenAI, але падкрэсліла, што гэта было «ненаўмысным».
Тэхніка дыстыляцыі дазваляе навучыць новы алгарытм на базе адказаў іншай мадэлі, што зніжае выдаткі на распрацоўку і робіць ШІ-доступ больш масавым. Раней DeepSeek пацвярджала, што выкарыстоўвала адкрытую мадэль Llama ад Meta ў некаторых версіях сваіх сістэм.
Бесполезное считать, столько стоило одного удачное обучение. Нужно еще считать неудачные прогоны, затраты на исследования, сбор данных, зарплаты программистов и ученых, железо. Тогда, возможно, 100 миллионов и получится. Раньше DeepSeek говорили, то потратили 5 миллионов, но не уточняли, на что именно. R1 - это надстройка над уже существующей моделью V3, стоимость разработки которой на раскрывалась. Вдобавок, у компании уже был свой дата центр с кучей Nvidea чипов. В общем, все мутно. Очевидно только, что американские и китайские ИИ компании жестко конкурируют и пытаются насолить друг другу.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
Бесполезное считать, столько стоило одного удачное обучение. Нужно еще считать неудачные прогоны, затраты на исследования, сбор данных, зарплаты программистов и ученых, железо. Тогда, возможно, 100 миллионов и получится. Раньше DeepSeek говорили, то потратили 5 миллионов, но не уточняли, на что именно. R1 - это надстройка над уже существующей моделью V3, стоимость разработки которой на раскрывалась. Вдобавок, у компании уже был свой дата центр с кучей Nvidea чипов. В общем, все мутно. Очевидно только, что американские и китайские ИИ компании жестко конкурируют и пытаются насолить друг другу.