Alibaba выпусціла AI-мадэль, якая можа кіраваць ПК і тэлефонамі
Яшчэ адзін сюрпрыз для OpenAI падрыхтавала Alibaba: кітайскі тэхнагігант учора выпусціў новае сямейства шматфункцыянальных мадэляў Qwen2.5-VL. Раней кітайскі стартап DeepSeek выпусціў вялікую моўную мадэль, значна таннейшую за o1, і генератар выяў, які на некаторых бэнчмарках паказаў сябе лепшым за DALLE-3.
Яшчэ адзін сюрпрыз для OpenAI падрыхтавала Alibaba: кітайскі тэхнагігант учора выпусціў новае сямейства шматфункцыянальных мадэляў Qwen2.5-VL. Раней кітайскі стартап DeepSeek выпусціў вялікую моўную мадэль, значна таннейшую за o1, і генератар выяў, які на некаторых бэнчмарках паказаў сябе лепшым за DALLE-3.
Мадэлі Qwen2.5-VL умеюць выконваць розныя задачы з тэкставымі дакументамі і візуалім. Яны могуць, напрыклад, апрацоўваць графікі і здабываць даныя са сканаў інвойсаў і бланкаў, лічыць прадметы на малюнках, разумець тое, што адбываецца на відэа даўжынёй у некалькі гадзін (у тым ліку апазнаваць аб’екты інтэлектуальнай уласнасці і розныя прадукты ў фільмах і серыялах). Аднак адная з найбольш выбітных функцый — здольнасць узаемадзейнічаць з софтам камп’ютараў і смартфонаў і кіраваць гаджатамі. Падобна да інструмента Operator ад OpenAI, мадэль Qwen2.5-VL можа, напрыклад, адкрыць праграму Booking і зарэзерваваць авіябілеты.
Распрацоўшчыкі заяўляюць, што найлепшая з мадэляў Qwen2.5-VL пераўзыходзіць GPT-4o ад OpenAI, Claude 3.5 Sonnet ад Anthropic і Gemini 2.0 Flash ад Google у шэрагу тэстаў на разуменне відэа, аналіз дакументаў, адказы на пытанні і па матэматыцы. Аднак на бэнчмарку OSWorld, які імітуе камп’ютарнае асяроддзе, вынікі Qwen2.5-VL не вельмі.
Don’t Miss @Alibaba_Qwen 2.5 VL! Despite all the Deepseek Hype, Qwen just dropped the best open Multimodal! Qwen 2.5 VL is a Vision Language Model that can control your computer, similar to the @OpenAI operator, extract structured information from charts, and more!
Qwen2.5-VL даступныя ў праграме Qwen Chat, спампаваць мадэлі можна на платформе Hugging Face, тэхлід якой прадэманстраваў навінку ў справе. Але паколькі мадэлі кітайскія, трэба быць гатовым да цэнзуры: яны не будуць абмяркоўваць забароненыя тэмы накшталт аўтаноміі Тайваня або «памылак Сі» — на гэты запыт, напрыклад, праграма сама выдае памылку.
Дзве малодшыя мадэлі на 3 млрд і 7 млрд параметраў даступныя свабодна. Флагманская на 72 млрд параметраў распаўсюджваецца па кастамнай ліцэнзіі Alibaba, якая абавязвае кампаніі і распрацоўшчыкаў са 100+ штомесячных актыўных карыстальнікаў запытваць дазвол на камерцыйнае разгортванне мадэлі.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
Китайский SkyNet все ближе...