Gemini навучылася карыстацца браўзэрам, як чалавек
Кампанія прэзентавала новую версію ШІ-мадэлі Gemini 2.5 Computer Use, здольную самастойна кіраваць вэб-браўзэрам і мабільнымі інтэрфейсамі. Цяпер агенты могуць выконваць дзеянні ўнутры звычайных карыстальніцкіх інтэрфейсаў: запаўняць формы, клікаць па кнопках і нават перацягваць элементы на экране.
Мадэль выкарыстоўвае візуальнае ўспрыманне і кантэкстнае мысленне для аналізу запытаў карыстальніка і паслядоўнага выканання дзеянняў. Алгарытм працуе ў цыкле: сістэма атрымлівае скрыншот інтэрфейсу, тэкставую інструкцыю і гісторыю папярэдніх дзеянняў, пасля чаго генеруе каманду — напрыклад, клік, увод тэксту ці пракрутку. Затым абноўленая выява экрана вяртаецца мадэлі, і працэс паўтараецца.
Gemini 2.5 Computer Use пакуль аптымізавана толькі для працы ў браўзэры і не прызначана для кіравання на ўзроўні аперацыйнай сістэмы. Мадэль падтрымлівае 13 відаў дзеянняў, уключаючы адкрыццё сайтаў, набор тэксту, націсканне кнопак і навігацыю па старонках. Google сцвярджае, што ў тэстах сістэма перасягнула аналагі — уключаючы рашэнні ад OpenAI і Anthropic — па выніках на бенчмарках Online-Mind2Web, WebVoyager і AndroidWorld, дасягнуўшы больш за 70% дакладнасці пры сярэднім часе водгуку каля 225 секунд.
Кампанія падкрэслівае, што вялікая ўвага нададзена бяспецы. У мадэль убудаваны паэтапны механізм праверкі дзеянняў, які прадухіляе небяспечныя аперацыі або ўмяшанне ў адчувальныя вобласці, напрыклад спробы абысці CAPTCHA ці кіраваць медыцынскімі прыладамі. Распрацоўшчыкі таксама могуць наладжваць узроўні пацверджання для выканання пэўных каманд.
Новая мадэль ужо выкарыстоўваецца ўнутры Google для тэставання інтэрфейсаў і праектаў накшталт Project Mariner, Firebase Testing Agent і AI Mode у пошуку. Gemini 2.5 Computer Use даступна распрацоўшчыкам праз Google AI Studio і Vertex AI, а дэманстрацыйную версію можна ўбачыць на платформе Browserbase, дзе мадэль выконвае заданні накшталт «згуляй у 2048» ці «прагледзь гарачыя тэмы на Hacker News».
Читать на dev.by