DeepSeek палепшыла навыкі праграмавання мадэлі V3
Кампанія прэзентавала абнаўленне сваёй адкрытай мадэлі V3, якое значна паляпшае магчымасці праграмавання, а таксама ўсталёўвае новыя стандарты дакладнасці і эфектыўнасці.
Кампанія прэзентавала абнаўленне сваёй адкрытай мадэлі V3, якое значна паляпшае магчымасці праграмавання, а таксама ўсталёўвае новыя стандарты дакладнасці і эфектыўнасці.
Кампанія прэзентавала абнаўленне сваёй адкрытай мадэлі V3, якое значна паляпшае магчымасці праграмавання, а таксама ўсталёўвае новыя стандарты дакладнасці і эфектыўнасці.
Абнаўленне было апублікавана на платформе Hugging Face. Паводле Reuters, метрыкі бенчмаркаў на Hugging Face дэманструюць значныя паляпшэнні новай версіі DeepSeek-V3-0324 у ключавых сферах, такіх як разважанні і напісанне кода, у параўнанні з папярэдняй версіяй.
У DeepSeek заяўляюць, што іх флагманская мадэль R1, выпушчаная праз некалькі тыдняў пасля V3, нягледзячы на сціплы бюджэт на распрацоўку, па некаторых ключавых паказчыках пераўзыйшла ШІ-мадэль o1 ад OpenAI. Пры выкананні пэўных задач выкарыстанне R1 абыходзіцца ў 20-50 разоў танней, чым выкарыстанне мадэлі o1 ад OpenAI.
V3 была прадстаўлена напрыканцы мінулага года. Яна пабудавана на архітэктуры Mixture of Experts і мае агульную колькасць параметраў 671 мільярд, з якіх 37 мільярдаў актывуюцца на кожны токен. Кампанія паведамляла, што выдаткі на навучанне DeepSeek V3 склалі $5,5 мільёнаў, што значна ніжэй, чым расходы іншых тэхналагічных гігантаў, такіх як OpenAI, на навучанне падобных мадэляў.
У студзені аплікацыя DeepSeek абагнала чат-бота ChatGPT і заняла першае месца ў рэйтынгу самых папулярных бясплатных аплікацый у амерыканскім App Store. Поспехі кітайскага стартапа прывялі да падзення ШІ-рынку, у выніку чаго ўдзельнікі сутыкнуліся са значным падзеннем кошту акцый. У прыватнасці, лідар рынку Nvidia 27 студзеня страціла $593 мільярды рынкавай капіталізацыі, што стала найбольшым аднадзённым падзеннем у гісторыі фондавага рынку.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.