Gemini навучылася карыстацца браўзэрам, як чалавек
Кампанія прэзентавала новую версію ШІ-мадэлі Gemini 2.5 Computer Use, здольную самастойна кіраваць вэб-браўзэрам і мабільнымі інтэрфейсамі. Цяпер агенты могуць выконваць дзеянні ўнутры звычайных карыстальніцкіх інтэрфейсаў: запаўняць формы, клікаць па кнопках і нават перацягваць элементы на экране.
Кампанія прэзентавала новую версію ШІ-мадэлі Gemini 2.5 Computer Use, здольную самастойна кіраваць вэб-браўзэрам і мабільнымі інтэрфейсамі. Цяпер агенты могуць выконваць дзеянні ўнутры звычайных карыстальніцкіх інтэрфейсаў: запаўняць формы, клікаць па кнопках і нават перацягваць элементы на экране.
Мадэль выкарыстоўвае візуальнае ўспрыманне і кантэкстнае мысленне для аналізу запытаў карыстальніка і паслядоўнага выканання дзеянняў. Алгарытм працуе ў цыкле: сістэма атрымлівае скрыншот інтэрфейсу, тэкставую інструкцыю і гісторыю папярэдніх дзеянняў, пасля чаго генеруе каманду — напрыклад, клік, увод тэксту ці пракрутку. Затым абноўленая выява экрана вяртаецца мадэлі, і працэс паўтараецца.
Gemini 2.5 Computer Use пакуль аптымізавана толькі для працы ў браўзэры і не прызначана для кіравання на ўзроўні аперацыйнай сістэмы. Мадэль падтрымлівае 13 відаў дзеянняў, уключаючы адкрыццё сайтаў, набор тэксту, націсканне кнопак і навігацыю па старонках. Google сцвярджае, што ў тэстах сістэма перасягнула аналагі — уключаючы рашэнні ад OpenAI і Anthropic — па выніках на бенчмарках Online-Mind2Web, WebVoyager і AndroidWorld, дасягнуўшы больш за 70% дакладнасці пры сярэднім часе водгуку каля 225 секунд.
Кампанія падкрэслівае, што вялікая ўвага нададзена бяспецы. У мадэль убудаваны паэтапны механізм праверкі дзеянняў, які прадухіляе небяспечныя аперацыі або ўмяшанне ў адчувальныя вобласці, напрыклад спробы абысці CAPTCHA ці кіраваць медыцынскімі прыладамі. Распрацоўшчыкі таксама могуць наладжваць узроўні пацверджання для выканання пэўных каманд.
Новая мадэль ужо выкарыстоўваецца ўнутры Google для тэставання інтэрфейсаў і праектаў накшталт Project Mariner, Firebase Testing Agent і AI Mode у пошуку. Gemini 2.5 Computer Use даступна распрацоўшчыкам праз Google AI Studio і Vertex AI, а дэманстрацыйную версію можна ўбачыць на платформе Browserbase, дзе мадэль выконвае заданні накшталт «згуляй у 2048» ці «прагледзь гарачыя тэмы на Hacker News».
10+ сертификаций Coursera, которые помогут улучшить резюме и повысить зарплату
Бюджетный способ прокачать навыки и повысить зарплату — это профессиональный сертификат от Google, IBM или крупного зарубежного университета. На Coursera как раз можно найти десятки полезных обучающих программ по машинному обучению, проджект-менеджменту и не только. Собрали 10+ сертификаций, которые будут выигрышно смотреться в резюме как новичка, так и опытного специалиста.
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
На платформе Coursera можно найти сотни курсов от крупных корпораций, включая Google, Amazon и HubSpot. Это отличная возможность начать новую карьеру, повысить квалификацию и просто получить плюс в профессиональную карму. Мы собрали 10 программ от ИТ-компаний, которые помогут освоить машинное обучение, UX-дизайн, продакт-менеджмент, кибербезопасность и многое другое.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.