Дапамажыце dev.by 🤍
Падтрымаць

Gemini навучылася карыстацца браўзэрам, як чалавек

Кампанія прэзентавала новую версію ШІ-мадэлі Gemini 2.5 Computer Use, здольную самастойна кіраваць вэб-браўзэрам і мабільнымі інтэрфейсамі. Цяпер агенты могуць выконваць дзеянні ўнутры звычайных карыстальніцкіх інтэрфейсаў: запаўняць формы, клікаць па кнопках і нават перацягваць элементы на экране.

Пакінуць каментарый
Gemini навучылася карыстацца браўзэрам, як чалавек

Кампанія прэзентавала новую версію ШІ-мадэлі Gemini 2.5 Computer Use, здольную самастойна кіраваць вэб-браўзэрам і мабільнымі інтэрфейсамі. Цяпер агенты могуць выконваць дзеянні ўнутры звычайных карыстальніцкіх інтэрфейсаў: запаўняць формы, клікаць па кнопках і нават перацягваць элементы на экране.

Мадэль выкарыстоўвае візуальнае ўспрыманне і кантэкстнае мысленне для аналізу запытаў карыстальніка і паслядоўнага выканання дзеянняў. Алгарытм працуе ў цыкле: сістэма атрымлівае скрыншот інтэрфейсу, тэкставую інструкцыю і гісторыю папярэдніх дзеянняў, пасля чаго генеруе каманду — напрыклад, клік, увод тэксту ці пракрутку. Затым абноўленая выява экрана вяртаецца мадэлі, і працэс паўтараецца.

Gemini 2.5 Computer Use пакуль аптымізавана толькі для працы ў браўзэры і не прызначана для кіравання на ўзроўні аперацыйнай сістэмы. Мадэль падтрымлівае 13 відаў дзеянняў, уключаючы адкрыццё сайтаў, набор тэксту, націсканне кнопак і навігацыю па старонках. Google сцвярджае, што ў тэстах сістэма перасягнула аналагі — уключаючы рашэнні ад OpenAI і Anthropic — па выніках на бенчмарках Online-Mind2Web, WebVoyager і AndroidWorld, дасягнуўшы больш за 70% дакладнасці пры сярэднім часе водгуку каля 225 секунд.

Кампанія падкрэслівае, што вялікая ўвага нададзена бяспецы. У мадэль убудаваны паэтапны механізм праверкі дзеянняў, які прадухіляе небяспечныя аперацыі або ўмяшанне ў адчувальныя вобласці, напрыклад спробы абысці CAPTCHA ці кіраваць медыцынскімі прыладамі. Распрацоўшчыкі таксама могуць наладжваць узроўні пацверджання для выканання пэўных каманд.

Новая мадэль ужо выкарыстоўваецца ўнутры Google для тэставання інтэрфейсаў і праектаў накшталт Project Mariner, Firebase Testing Agent і AI Mode у пошуку. Gemini 2.5 Computer Use даступна распрацоўшчыкам праз Google AI Studio і Vertex AI, а дэманстрацыйную версію можна ўбачыць на платформе Browserbase, дзе мадэль выконвае заданні накшталт «згуляй у 2048» ці «прагледзь гарачыя тэмы на Hacker News».

ШІ-браўзэр Comet можа красці вашы дадзеныя. Perplexity: нічога страшнага
ШІ-браўзэр Comet можа красці вашы дадзеныя. Perplexity: нічога страшнага
Па тэме
ШІ-браўзэр Comet можа красці вашы дадзеныя. Perplexity: нічога страшнага
Perplexity зрабіла ШІ-браўзер Comet бясплатным
Perplexity зрабіла ШІ-браўзер Comet бясплатным
Па тэме
Perplexity зрабіла ШІ-браўзер Comet бясплатным
Opera прэзентавала ШІ-браўзер які ўмее пісаць код
Opera прэзентавала ШІ-браўзер, які ўмее пісаць код
Па тэме
Opera прэзентавала ШІ-браўзер, які ўмее пісаць код
Чытайце таксама
Былы кіраўнік Intel будуе «хрысціянскі ШІ», каб »наблізіць вяртанне Хрыста»
Былы кіраўнік Intel будуе «хрысціянскі ШІ», каб »наблізіць вяртанне Хрыста»
Былы кіраўнік Intel будуе «хрысціянскі ШІ», каб »наблізіць вяртанне Хрыста»
GitHub сабраў ШІ-агентаў OpenAI, Google і Anthropic у адным месцы
GitHub сабраў ШІ-агентаў OpenAI, Google і Anthropic у адным месцы
GitHub сабраў ШІ-агентаў OpenAI, Google і Anthropic у адным месцы
PayPal стане першым плацежным сэрвісам у ChatGPT
PayPal стане першым плацежным сэрвісам у ChatGPT
PayPal стане першым плацежным сэрвісам у ChatGPT
Amazon звольніла 14 000 супрацоўнікаў дзеля «эфектыўнасці і хуткасці»
Amazon звольніла 14 000 супрацоўнікаў дзеля «эфектыўнасці і хуткасці»
Amazon звольніла 14 000 супрацоўнікаў дзеля «эфектыўнасці і хуткасці»

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.