Дапамажыце dev.by 🤍
Падтрымаць

Gemini навучылася карыстацца браўзэрам, як чалавек

Кампанія прэзентавала новую версію ШІ-мадэлі Gemini 2.5 Computer Use, здольную самастойна кіраваць вэб-браўзэрам і мабільнымі інтэрфейсамі. Цяпер агенты могуць выконваць дзеянні ўнутры звычайных карыстальніцкіх інтэрфейсаў: запаўняць формы, клікаць па кнопках і нават перацягваць элементы на экране.

Пакінуць каментарый
Gemini навучылася карыстацца браўзэрам, як чалавек

Кампанія прэзентавала новую версію ШІ-мадэлі Gemini 2.5 Computer Use, здольную самастойна кіраваць вэб-браўзэрам і мабільнымі інтэрфейсамі. Цяпер агенты могуць выконваць дзеянні ўнутры звычайных карыстальніцкіх інтэрфейсаў: запаўняць формы, клікаць па кнопках і нават перацягваць элементы на экране.

Мадэль выкарыстоўвае візуальнае ўспрыманне і кантэкстнае мысленне для аналізу запытаў карыстальніка і паслядоўнага выканання дзеянняў. Алгарытм працуе ў цыкле: сістэма атрымлівае скрыншот інтэрфейсу, тэкставую інструкцыю і гісторыю папярэдніх дзеянняў, пасля чаго генеруе каманду — напрыклад, клік, увод тэксту ці пракрутку. Затым абноўленая выява экрана вяртаецца мадэлі, і працэс паўтараецца.

Gemini 2.5 Computer Use пакуль аптымізавана толькі для працы ў браўзэры і не прызначана для кіравання на ўзроўні аперацыйнай сістэмы. Мадэль падтрымлівае 13 відаў дзеянняў, уключаючы адкрыццё сайтаў, набор тэксту, націсканне кнопак і навігацыю па старонках. Google сцвярджае, што ў тэстах сістэма перасягнула аналагі — уключаючы рашэнні ад OpenAI і Anthropic — па выніках на бенчмарках Online-Mind2Web, WebVoyager і AndroidWorld, дасягнуўшы больш за 70% дакладнасці пры сярэднім часе водгуку каля 225 секунд.

Кампанія падкрэслівае, што вялікая ўвага нададзена бяспецы. У мадэль убудаваны паэтапны механізм праверкі дзеянняў, які прадухіляе небяспечныя аперацыі або ўмяшанне ў адчувальныя вобласці, напрыклад спробы абысці CAPTCHA ці кіраваць медыцынскімі прыладамі. Распрацоўшчыкі таксама могуць наладжваць узроўні пацверджання для выканання пэўных каманд.

Новая мадэль ужо выкарыстоўваецца ўнутры Google для тэставання інтэрфейсаў і праектаў накшталт Project Mariner, Firebase Testing Agent і AI Mode у пошуку. Gemini 2.5 Computer Use даступна распрацоўшчыкам праз Google AI Studio і Vertex AI, а дэманстрацыйную версію можна ўбачыць на платформе Browserbase, дзе мадэль выконвае заданні накшталт «згуляй у 2048» ці «прагледзь гарачыя тэмы на Hacker News».

ШІ-браўзэр Comet можа красці вашы дадзеныя. Perplexity: нічога страшнага
ШІ-браўзэр Comet можа красці вашы дадзеныя. Perplexity: нічога страшнага
Па тэме
ШІ-браўзэр Comet можа красці вашы дадзеныя. Perplexity: нічога страшнага
Perplexity зрабіла ШІ-браўзер Comet бясплатным
Perplexity зрабіла ШІ-браўзер Comet бясплатным
Па тэме
Perplexity зрабіла ШІ-браўзер Comet бясплатным
Opera прэзентавала ШІ-браўзер які ўмее пісаць код
Opera прэзентавала ШІ-браўзер, які ўмее пісаць код
Па тэме
Opera прэзентавала ШІ-браўзер, які ўмее пісаць код
Чытайце таксама
Gemini навучылася карыстацца браўзэрам, як чалавек
Gemini навучылася карыстацца браўзэрам, як чалавек
Gemini навучылася карыстацца браўзэрам, як чалавек
ШІ-праект Google ператварае нудныя кніжкі ў персаналізаваныя матэрыялы для навучання
ШІ-праект Google ператварае нудныя кніжкі ў персаналізаваныя матэрыялы для навучання
ШІ-праект Google ператварае нудныя кніжкі ў персаналізаваныя матэрыялы для навучання
Без шостага пальца: Gemini навучылася аналізаваць выявы па кроках
Без шостага пальца: Gemini навучылася аналізаваць выявы па кроках
Без шостага пальца: Gemini навучылася аналізаваць выявы па кроках
Google адкрыла функцыю персанальнага ШІ для ўсіх карыстальнікаў Gemini
Google адкрыла функцыю персанальнага ШІ для ўсіх карыстальнікаў Gemini
Google адкрыла функцыю персанальнага ШІ для ўсіх карыстальнікаў Gemini

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.