Хуткасць у абмен на лоск: Google прадставіла эксперыментальную ШІ-мадэль, якая працуе паводле новага прынцыпу
Google выпусціла эксперыментальную опэнсорсную мадэль DiffusionGemma, якая кардынальна мяняе звычайны падыход да генерацыі тэксту. У адрозненне ад стандартных мадэляў накшталт Gemma 4, якія пішуць строга паслядоўна — слова за словам, навінка генеруе адразу ўвесь масіў тэксту ў выглядзе выпадковага набору «зашумленых» токенаў, а затым за некалькі праходаў ачышчае і рэдагуе яго да чытэльнага стану. Па сутнасці, калі звычайныя ШІ-мадэлі паслядоўна пішуць тэкст, то DiffusionGemma накідвае чарнавік і правіць яго цалкам.
Google выпусціла эксперыментальную опэнсорсную мадэль DiffusionGemma, якая кардынальна мяняе звычайны падыход да генерацыі тэксту. У адрозненне ад стандартных мадэляў накшталт Gemma 4, якія пішуць строга паслядоўна — слова за словам, навінка генеруе адразу ўвесь масіў тэксту ў выглядзе выпадковага набору «зашумленых» токенаў, а затым за некалькі праходаў ачышчае і рэдагуе яго да чытэльнага стану. Па сутнасці, калі звычайныя ШІ-мадэлі паслядоўна пішуць тэкст, то DiffusionGemma накідвае чарнавік і правіць яго цалкам.
Такі падыход забяспечвае каласальную хуткасць і апаратную эфектыўнасць: мадэль выдае больш за 1000 токенаў у секунду на чыпе NVIDIA H100 і звыш 700 токенаў на спажывецкай карце RTX 5090, што да 4 разоў хутчэй стандартных аналагаў падчас працы аднаго карыстальніка на GPU. Пад капотам DiffusionGemma знаходзіцца архітэктура mixture-of-experts на 26 млрд параметраў, але пры генерацыі актывуюцца толькі 3,8 млрд, дзякуючы чаму мадэль патрабуе каля 18 ГБ відэапамяці і можа запускацца на магутных хатніх ПК. За адзін крок ШІ апрацоўвае паралельна да 256 токенаў, што дазваляе яму бачыць увесь блок тэксту адразу і выпраўляць унутраныя супярэчнасці яшчэ ў працэсе генерацыі.
Галоўны кампраміс навінкі — якасць тэксту. Google адкрыта прызнае, што па глыбіні, стабільнасці і дакладнасці фармулёвак DiffusionGemma саступае стандартнай лінейцы Gemma 4. Прадукт арыентаваны на распрацоўшчыкаў і даследчыкаў для сцэнарыяў, дзе імгненны водгук важнейшы за ідэальны стыль: напрыклад, для аўтадапаўнення кода, запаўнення JSON-структур, вырашэння лагічных задач і матэматычных патэрнаў, а таксама для інтэрактыўных тэкставых памочнікаў, якія працуюць у рэжыме рэальнага часу.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.