Nvidia выпусціла лінейку адкрытых ШІ-мадэляў да 500 млрд параметраў
Кампанія прэзентавала лінейку адкрытых ШІ-мадэляў Nemotron 3. Па словах распрацоўшчыкаў, новыя мадэлі сталі хутчэйшымі і таннейшымі ў працы за кошт гібрыднай архітэктуры і арыентаваныя перш за ўсё на стварэнне шматагентных ШІ-сістэм.
Лінейка Nemotron 3 уключае тры мадэлі. Nemotron 3 Nano з 30 мільярдамі параметраў арыентавана на вузкія і высокаэфектыўныя задачы. Nemotron 3 Super са 100 мільярдамі параметраў прызначана для шматагентных сцэнароў і задач з павышанымі патрабаваннямі да лагічнага разважання. Nemotron 3 Ultra — найбуйнейшая версія з прыкладна 500 мільярдамі параметраў, разлічаная на складаныя аплікацыі і маштабныя агентныя сістэмы.
У Nvidia падкрэслілі, што гібрыдная MoE-архітэктура дазваляе павысіць маштабаванасць і знізіць кошт інферэнса. Па дадзеных кампаніі, новая архітэктура забяспечвае да чатырохкратнага росту прапускной здольнасці па токенах у параўнанні з Nemotron 2 Nano і скарачае колькасць токенаў, якія генеруюцца ў працэсе разважання, прыкладна на 60%. Гэта зніжае патрабаванні да памяці і паскарае працу мадэляў.
Для мадэляў Super і Ultra кампанія таксама ўкараніла так званы latent MoE — падыход, пры якім «эксперты» ў мадэлі выкарыстоўваюць агульнае ядро і захоўваюць толькі невялікую частку параметраў як прыватныя. Гэта дазваляе дадаткова павысіць эфектыўнасць без страты якасці. Навучанне буйных мадэляў праводзілася з выкарыстаннем 4-бітнага фармату NVFP4, што дало магчымасць трэніраваць іх на існуючай інфраструктуры без зніжэння дакладнасці.
Раннімі карыстальнікамі Nemotron 3 сталі Accenture, CrowdStrike, Deloitte, EY, Oracle Cloud Infrastructure, Palantir, Perplexity, ServiceNow, Siemens і Zoom. Па вынікахах незалежных бэнчмаркаў Artificial Analysis мадэлі Nemotron 3 занялі высокія пазіцыі сярод рашэнняў параўнальнага памеру.
У кампаніі заявілі, што робяць стаўку на адкрытыя мадэлі, каб даць распрацоўшчыкам больш празрыстасці і кантролю над навучаннем і даналадкай ШІ. Кіраўнік Nvidia Джэнсен Хуанг заявіў, што адкрытыя інавацыі застаюцца фундаментам прагрэсу ў ШІ, а Nemotron павінен стаць платформай для стварэння маштабавальных агентных сістэм.
Читать на dev.by